近年,機械翻訳において統計翻訳が注目され,盛んに研究が行われている. 本論文では統計翻訳に関する3つの研究を扱う. 以下にそれぞれの概要について示す.
この問題に対して,本研究では大量の単言語データをパターン翻訳によって翻訳し, 既存の対訳学習データに付与した.実験の結果,自動評価および人手評価における提案手法の有効性が認められた.
そこで本研究では,対訳データのみを利用して,未知語を削減する方法を提案する. 実験の結果,単文を用いた実験において,出力文全体の自動評価値がベースラインと比較してわずかに向上した.さらに,提案手法において未知語の改善に大きな効果が認められた.
0 ベースラインの出力において未知語を含む文100文中,単文を用いた実験では61文,重文複文を用いた実験では68文の未知語が改善した.さらに,未知語が改善した文のうち,単文実験において61文中21文,重文複文実験において68文中12文の翻訳品質が向上した.したがって,未知語問題に対して,提案手法の有効性が認められる.
そこで本研究では,日英統計的階層句機械翻訳(階層型翻訳)において統語的情報を追加する手法を提案し,翻訳精度の向上を目指した.
実験の結果,提案手法において有意な効果は認められなかった.原因として,日本語文へのタグ付与のみでは,統語的情報として不十分であることなどが挙げられる.今後の展開として,生成されたルールのフィルタリングを行う手法などが考えられる.