本章では,提案手法である文節区切りの学習データを用いたフレーズテーブルの学 習について説明する.本手法の枠組みを図に示す.
日英統計翻訳において,一般に学習データの日本語文は形態素解析を用いて,単 語に区切られる.そして,単語区切りの学習データを用いて,フレーズテーブル を学習する.本稿では,単語区切りの学習データから学習されるフレーズテーブ ルを単語区切りフレーズテーブルと呼ぶ.しかし,単語区切りフレーズテーブル は単語対応のフレーズ対や短いフレーズを持つフレーズ対が多いため,出力文は多 くのフレーズ対を必要とする.そのため,並び替えの候補が膨大になり,翻訳精 度が低下する.
この問題を解決するために,長い日本語フレーズを持つフレーズ対を増やすこと で,出力文が利用するフレーズ対の数を減らす手法を提案する.具体的には,学習デー タの日本語文を文節に区切り,長い日本語フレーズを持つフレーズテーブルを学 習する.例えば,図で用いた学習データの日本語文を文節 に区切った場合,単語の対応関係は図になる.
表と比較して,表では,``し and''や ``ジュース juice''といった短いフレーズ対応がない.本稿では,文節に区 切った学習データから学習されるフレーズテーブルを文節区切りフレーズテーブ ルと呼ぶ.そして,この文節区切りフレーズテーブルを従来の単語区切りフレー ズテーブルと併用し,翻訳を行う.