また,1990年代前半に単語に基づく統計翻訳が提案されたが,翻訳精度が低くあまり研究がされなかった.しかし,2000年代始めに句に基づく統計翻訳が提案され,単語に基づく統計翻訳と比較して翻訳精度が高いことから,現在は句に基づく統計翻訳が主流となっている.句に基づく統計翻訳は,学習データとして対訳文を与えるだけで翻訳が可能である.このため翻訳にかかるコストは非常に低い.加えて,対訳文から対訳単語と単語翻訳確率の自動取得が可能である.
本研究では統計翻訳の特徴である,対訳文から対訳単語と単語翻訳確率の自動取得が可能である点に着目し,パターン翻訳に用いる単語辞書と文パターンを自動的に作成する.そして,パターン翻訳におけるコストの問題を解決する.
また,パターン翻訳は翻訳精度が高ければカバー率が低く,カバー率が高ければ翻訳精度が低くなる傾向にある.この理由として,入力文に適合した文パターンが保持する字面が関係していると考えた.具体的には,適合した文パターンが保持する字面の数が多ければ翻訳精度は高くなり,少なければ翻訳精度が低くなるということである.そこで本研究では,翻訳精度の問題に対して,入力文と文パターンの字面を比較する.そして字面が多く一致する文パターンを優先して選択する.
さらに,カバー率には入力文が文パターンに適合しなければ翻訳文が出力されない問題がある.本研究ではカバー率の問題に対して,大量の文パターンと単語辞書を作成することで改善を試みる.
本研究では英日方向のパターン翻訳を行う.プログラムで自動作成した単語辞書と文パターンを用いて得た日本語翻訳文に対して,言語翻訳確率(tri-gram)を用いた絞込みを行い,出力する日本語翻訳文を決定する.最後に日本語翻訳文に対して自動評価と人手評価を行い提案手法の有効性を調査する.
本論文の構成は以下の通りである.第2章で従来の英日パターン翻訳システムについて説明し,第3章で英日統計翻訳システムについて説明する.第4章で提案する翻訳システムについて説明する.第5章で実験条件を述べ,第6章で実験結果を示す.第7章で追加実験について説明し,第8章で本研究の考察を述べる.