次へ: 統語的タグを用いた統計的階層句機械翻訳 上へ: 句に基づく統計翻訳における未知語処理の１手法 戻る: 考察目次

まとめ

本研究では，フレーズテーブルの作成におけるヒューリスティックスの併用を行うことで，統計翻訳における未知語を減少させる手法を提案した．ヒューリスティックスの併用として，``grow-diag-final-and"のフレーズテーブルと，ベースラインシステムにおいて未知語として出力される単語に対応する``intersection"のフレーズテーブルを併用した．実験の結果，出力文全体の自動評価値に影響はなかったが，未知語の減少に大きな効果が認められた．ベースラインの出力において未知語を含む文100文中，単文を用いた実験では61文，重文複文を用いた実験では68文の未知語が改善した．さらに，未知語が改善した文のうち，単文実験において61文中21文，重文複文実験において68文中12文の翻訳品質が向上した．したがって，未知語問題に対して，提案手法の有効性が認められる．今後，英日方向における実験や，特許文などのデータを用いた実験における提案手法の有効性を確認する必要がある．

平成25年2月12日