next up previous contents
次へ: 文節区切りフレーズテーブルの生成手順 上へ: master 戻る: デコーダのパラメータの最適化   目次


提案手法

本章では,提案手法である文節区切りの学習データを用いたフレーズテーブルの学 習について説明する.本手法の枠組みを図[*]に示す.

図: 提案手法の枠組み
\includegraphics[scale=1, clip]{add_wakugumi.eps}

日英統計翻訳において,一般に学習データの日本語文は形態素解析を用いて,単 語に区切られる.そして,単語区切りの学習データを用いて,フレーズテーブル を学習する.本稿では,単語区切りの学習データから学習されるフレーズテーブ ルを単語区切りフレーズテーブルと呼ぶ.しかし,単語区切りフレーズテーブル は単語対応のフレーズ対や短いフレーズを持つフレーズ対が多いため,出力文は多 くのフレーズ対を必要とする.そのため,並び替えの候補が膨大になり,翻訳精 度が低下する.

この問題を解決するために,長い日本語フレーズを持つフレーズ対を増やすこと で,出力文が利用するフレーズ対の数を減らす手法を提案する.具体的には,学習デー タの日本語文を文節に区切り,長い日本語フレーズを持つフレーズテーブルを学 習する.例えば,図[*]で用いた学習データの日本語文を文節 に区切った場合,単語の対応関係は図[*]になる.

図: 提案手法により得られた両方向の単語の対応関係
\includegraphics[scale=0.7, clip]{alignment_phrase.eps}

そして,図[*]において,抽出されるフレーズ対応は表 [*]になる.


表: 提案手法の両方向の対応関係から抽出したフレーズ対応
彼は $ \vert\vert\vert$ He
彼は アイスを 食べたし $ \vert\vert\vert$ He ate ice cream and
彼は アイスを 食べたし ジュースも 飲んだ $ \vert\vert\vert$ He ate ice cream and drank the juice
アイスを $ \vert\vert\vert$ ice cream
アイスを 食べたし $ \vert\vert\vert$ ate ice cream and
ジュースも $ \vert\vert\vert$ juice
ジュースも $ \vert\vert\vert$ the juice
ジュースも 飲んだ $ \vert\vert\vert$ drank the juice
飲んだ $ \vert\vert\vert$ drank
飲んだ $ \vert\vert\vert$ drank the

[*]と比較して,表[*]では,``し $ \vert\vert\vert$ and''や ``ジュース $ \vert\vert\vert$ juice''といった短いフレーズ対応がない.本稿では,文節に区 切った学習データから学習されるフレーズテーブルを文節区切りフレーズテーブ ルと呼ぶ.そして,この文節区切りフレーズテーブルを従来の単語区切りフレー ズテーブルと併用し,翻訳を行う.



Subsections

平成22年2月17日