そこで本研究では,パラレルコーパスのみを利用して,翻訳されない単語を削減する方法を提案する. 統計翻訳では,翻訳の確からしさを表すモデルとして翻訳モデルを用いている.翻訳モデルは, フレーズテーブルと呼ばれる表で管理される.フレーズテーブルは単語対応からヒューリスティックス を用いて作成される.一般的に用いられるヒューリスティックス``grow-diag-final-and"では長い フレーズが作成され,短いフレーズが作成されない傾向にある.そして,翻訳において長いフレーズ が優先的に利用されるため,短い単語列,特に1単語が未知語として出力される場合がある.
一方,ヒューリスティックスの一つである``intersection(単語対応の積集合)"を用いたフレーズ テーブルには,未知語として出力された単語に対応するフレーズが存在する場合がある.しかし,``intersection"を用いた翻訳では,フレーズの候補が膨大になるため,枝刈り探索の問題から翻訳効率 および翻訳精度が低下する.そこで,``grow-diag-final-and"のフレーズテーブルと,未知語として 出力される単語に対応する``intersection"のフレーズテーブルを併用することで,未知語が削減できる 可能性がある.
本研究では,``grow-diag-final-and"と``intersection"を併用することで,未知語の削減と翻訳精度の改善を目指す.