next up previous contents
Next: 従来の研究 Up: honron Previous: 図目次   目次

はじめに

パターン翻訳[1]は,1960年代に提案された翻訳方法である.人手に より作成した,対訳句辞書と対訳文パターン辞書を用いて翻訳を行う.この翻訳 方式は入力文が適切な対訳文パターンに適合した場合,翻訳精度の高い出力文 が得られる.しかし,対訳句辞書と対訳文パターン辞書の作成は人手で行うため, 開発にコストがかかる.そして,入力文が対訳文パターンに適合しない場合は, 翻訳ができない.
 また,1990年代に単語に基づく統計翻訳が提案された.原言語文の単語を目的 言語文の単語に翻訳する手法である.しかし,翻訳精度が低い. しかし,2000年代始めに句に基づく統計翻訳が提案された.句に基 づく統計翻訳は,単語に基づく統計翻訳よりも翻訳精度が高く,学習データとし て,対訳文を与えるだけで翻訳が可能である.そのため翻訳にかかるコストが低 い.
 一方,江木らパターン翻訳の問題を解決するため,GIZA++[2]を利用したPattern Based SMT[3]を提案した.この手法は対訳フレーズ辞書と対訳文パターン辞書 を対訳文から自動的に作成し,翻訳を行う.対訳文から自動的に作成するので, パターン翻訳と比較して,開発コストを低くすることができる.しかし対訳文パ ターンに適合しても,翻訳精度の低い出力文がある.この問題の原因 の一つは,不適切な対訳文パターンの選択である.
 そこで本研究では,日英Pattern Based SMTにおいて,対訳文パターンの日本 語原文と入力文とのレーベンシュタイン距離[4](以下LsD)を求める. この距離を利用して,入力文と対訳文パターンの日本語原文との類似度を求め, 対訳文パターンを選択する際に,対訳文パターン対数確率の代わりに使用する. そして,入力文と類似した日本語原文から作成された対訳文パター ンを選択することにより,翻訳精度の向上を目指した.しかし,翻訳精度の向上 はあまり見られなかった.
 本論文の構成は以下の通りである.第2章で従来の研究について説明し,第3章 で今回使用するPattern Based SMTについて説明する.第4章で提案する手法につ いて説明する.第5章で実験データを示す.第6章で実験結果と評価を示す.第7 章で本研究の考察を述べる.

2015-03-21