日英統計翻訳において,日本語文は複数のフレーズ対を用いてフレーズ単位で変 換される.そして,そのフレーズの順序を並び替え,英語文に翻訳される.しか し,重文複文といった複雑な日本語文を翻訳する場合,多くのフレーズ対が必要 となる.そのため,フレーズの並び替えの候補数が膨大になり,翻訳精度が低く なる傾向がある[2].
そこで本研究では,長いフレーズを持つフレーズ対を増やすことで,出力文が利 用するフレーズ対の数を減らし,並び替えの候補を減らす手法を提案する.具体 的には,3種類の学習データから生成されたフレーズテーブルをそれぞれ従来の単 語区切りフレーズテーブルと併用し,翻訳精度の向上を目指す.1つ目は,「日 本語文を文節区切り,英語文を単語区切りとした学習データ」から生成 されたフレーズテーブル.2つ目は,「日本語文を単語区切り,英語 文をフレーズ単位に統合した学習データ」から生成されたフレーズテーブル.そして, 3つ目は,「日本語文を文節区切り,英語文をフレーズ単位に統合し た学習データ」から生成されたフレーズテーブルである.また,3つのフレーズテー ブルを全て併用した場合の翻訳実験も行う.
実験の結果,従来手法と比較して,BLEUスコアが単文で0.43%,重文複文で0.38%向上した. また,同等の手法を学習データの英語文に対して適用した場合の実験も行った. 英語文に適用した場合も,従来手法と比較して,翻訳精度が向上した.さらに, 従来手法のフレーズテーブルと提案手法により得られた3つのフレーズテーブル を併用した実験も行った.4つのフレーズテーブルを用いた場合,従来手法と比 較して,BLEUスコアが単文の翻訳で0.71%,重文複文の翻訳で0.51%向上した.
本論文の構成は以下の通りである.まず,2章で日英統計翻訳についての概要を 示し,各モデルの学習について述べる.3章では本研究の提案手法について 述べる.4章では実験に用いるデータやツールといった実験環境について述べる. 5章では,提案手法の効果を示す.6章では,提案手法を学習データの英語文に適 用した場合の効果を示す.7章では,本研究で生成したフレーズテーブルを全て 併用した場合の効果を示す.そして,8章で,考察を行い,最後に9章で結論を述べ, まとめる.