next up previous contents
次へ: 目次 上へ: master 戻る: master   目次

概要

日英統計翻訳において,日本語文は複数のフレーズ対を用いてフレーズ単位で変 換される.そして,そのフレーズの順序を並び替え,英語文に翻訳される.しか し,重文複文といった複雑な日本語文を翻訳する場合,多くのフレーズ対が必要 となる.そのため,フレーズの並び替えの候補数が膨大になり,翻訳精度が低く なる傾向がある.

そこで本研究では,長いフレーズを持つフレーズ対を増やすことで,出力文が利 用するフレーズ対の数を減らし,並び替えの候補を減らす手法を提案する.具体 的には,3種類の学習データから得られたフレーズテーブルをそれぞれ従来の単 語区切りフレーズテーブルと併用し,翻訳精度の向上を目指す.

1つ目は,「日本語文を文節区切り,英語文を単語区切りとした学 習データ」から生成されたフレーズテーブル.2つ目は,「日本語文を単 語区切り,英語文をフレーズ単位に統合した」学習データから生成されたフレーズテー ブル.そして,3つ目は,「日本語文を文節区切り,英語文をフレー ズ単位に統合した学習データ」から生成されたフレーズテーブルである.

実験の結果,従来手法の翻訳精度と比較して,どのフレーズテーブルを併用した 場合でも翻訳精度は向上した.さらに,提案手法により得られた3つのフレーズ テーブルを全て併用することで,従来手法と比較して,BLEUスコアが単文の翻訳 で0.71%,重文複文の翻訳で0.51%向上した.



平成22年2月17日