そこで本研究では,長いフレーズを持つフレーズ対を増やすことで,出力文が利 用するフレーズ対の数を減らし,並び替えの候補を減らす手法を提案する.具体 的には,3種類の学習データから得られたフレーズテーブルをそれぞれ従来の単 語区切りフレーズテーブルと併用し,翻訳精度の向上を目指す.
1つ目は,「日本語文を文節区切り,英語文を単語区切りとした学 習データ」から生成されたフレーズテーブル.2つ目は,「日本語文を単 語区切り,英語文をフレーズ単位に統合した」学習データから生成されたフレーズテー ブル.そして,3つ目は,「日本語文を文節区切り,英語文をフレー ズ単位に統合した学習データ」から生成されたフレーズテーブルである.
実験の結果,従来手法の翻訳精度と比較して,どのフレーズテーブルを併用した 場合でも翻訳精度は向上した.さらに,提案手法により得られた3つのフレーズ テーブルを全て併用することで,従来手法と比較して,BLEUスコアが単文の翻訳 で0.71%,重文複文の翻訳で0.51%向上した.