Next: 従来の研究
Up: honron
Previous: 図目次
目次
パターン翻訳[1]は,1960年代に提案された翻訳方法である.人手に
より作成した,対訳句辞書と対訳文パターン辞書を用いて翻訳を行う.この翻訳
方式は入力文が適切な対訳文パターンに適合した場合,翻訳精度の高い出力文
が得られる.しかし,対訳句辞書と対訳文パターン辞書の作成は人手で行うため,
開発にコストがかかる.そして,入力文が対訳文パターンに適合しない場合は,
翻訳ができない.
また,1990年代に単語に基づく統計翻訳が提案された.原言語文の単語を目的
言語文の単語に翻訳する手法である.しかし,翻訳精度が低い.
しかし,2000年代始めに句に基づく統計翻訳が提案された.句に基
づく統計翻訳は,単語に基づく統計翻訳よりも翻訳精度が高く,学習データとし
て,対訳文を与えるだけで翻訳が可能である.そのため翻訳にかかるコストが低
い.
一方,江木らパターン翻訳の問題を解決するため,GIZA++[2]を利用したPattern
Based SMT[3]を提案した.この手法は対訳フレーズ辞書と対訳文パターン辞書
を対訳文から自動的に作成し,翻訳を行う.対訳文から自動的に作成するので,
パターン翻訳と比較して,開発コストを低くすることができる.しかし対訳文パ
ターンに適合しても,翻訳精度の低い出力文がある.この問題の原因
の一つは,不適切な対訳文パターンの選択である.
そこで本研究では,日英Pattern Based SMTにおいて,対訳文パターンの日本
語原文と入力文とのレーベンシュタイン距離[4](以下LsD)を求める.
この距離を利用して,入力文と対訳文パターンの日本語原文との類似度を求め,
対訳文パターンを選択する際に,対訳文パターン対数確率の代わりに使用する.
そして,入力文と類似した日本語原文から作成された対訳文パター
ンを選択することにより,翻訳精度の向上を目指した.しかし,翻訳精度の向上
はあまり見られなかった.
本論文の構成は以下の通りである.第2章で従来の研究について説明し,第3章
で今回使用するPattern Based SMTについて説明する.第4章で提案する手法につ
いて説明する.第5章で実験データを示す.第6章で実験結果と評価を示す.第7
章で本研究の考察を述べる.
2015-03-21