next up previous contents
次へ: 未知語 上へ: 句に基づく統計翻訳における未知語処理の1手法 戻る: 句に基づく統計翻訳における未知語処理の1手法   目次

背景および目的

統計翻訳において,翻訳されない単語が出力される場合がある.翻訳されない単語の中でも,学習コーパス中には対応する訳語が存在する場合がある.本研究ではそれらの未知語と定義する. そのような単語を減少させるため,様々な試みが行われている.代表的な手法として,単語辞書などの対訳辞書データをパラレルコーパスに追加する手法がある[2].しかし,この手法では,単語辞書などのパラレルコーパス以外のリソースが必要となる.

そこで本研究では,パラレルコーパスのみを利用して,翻訳されない単語を削減する方法を提案する. 統計翻訳では,翻訳の確からしさを表すモデルとして翻訳モデルを用いている.翻訳モデルは, フレーズテーブルと呼ばれる表で管理される.フレーズテーブルは単語対応からヒューリスティックス を用いて作成される.一般的に用いられるヒューリスティックス``grow-diag-final-and"では長い フレーズが作成され,短いフレーズが作成されない傾向にある.そして,翻訳において長いフレーズ が優先的に利用されるため,短い単語列,特に1単語が未知語として出力される場合がある.

一方,ヒューリスティックスの一つである``intersection(単語対応の積集合)"を用いたフレーズ テーブルには,未知語として出力された単語に対応するフレーズが存在する場合がある.しかし,``intersection"を用いた翻訳では,フレーズの候補が膨大になるため,枝刈り探索の問題から翻訳効率 および翻訳精度が低下する.そこで,``grow-diag-final-and"のフレーズテーブルと,未知語として 出力される単語に対応する``intersection"のフレーズテーブルを併用することで,未知語が削減できる 可能性がある.

本研究では,``grow-diag-final-and"と``intersection"を併用することで,未知語の削減と翻訳精度の改善を目指す.



平成25年2月12日