次へ: 英日パターン翻訳システム 上へ: honron 戻る: 表一覧目次

はじめに

パターン翻訳は1960年代半ばに提案された機械翻訳手法の一種である．パターン翻訳は，大量の文パターン(原言語文パターンと目的語文パターンの対で構成)と単語辞書を用いて，翻訳文を得る方法である．パターン翻訳の長所として入力文が適切な文パターンに適合した場合に精度の高い翻訳文が得られる．しかし，パターン翻訳には多くの問題点がある．以下にパターン翻訳の問題点と原因を示す．

コストの問題
文パターンと単語辞書の作成を人手で行うため，コストと時間がかかる．
翻訳精度とカバー率の問題
パターン翻訳は一般的に，翻訳精度が高ければカバー率が低く，カバー率が高ければ翻訳精度が低くなる傾向にある．
カバー率の問題
入力文が文パターンに適合しない場合，翻訳ができない．

1966年に，機械翻訳における研究成果を悲観視するALPACレポート [1]が発表され，機械翻訳の研究は次第に行われなくなった．

また，1990年代前半に単語に基づく統計翻訳が提案されたが，翻訳精度が低くあまり研究がされなかった．しかし，2000年代始めに句に基づく統計翻訳が提案され，単語に基づく統計翻訳と比較して翻訳精度が高いことから，現在は句に基づく統計翻訳が主流となっている．句に基づく統計翻訳は，学習データとして対訳文を与えるだけで翻訳が可能である．このため翻訳にかかるコストは非常に低い．加えて，対訳文から対訳単語と単語翻訳確率の自動取得が可能である．

本研究では統計翻訳の特徴である，対訳文から対訳単語と単語翻訳確率の自動取得が可能である点に着目し，パターン翻訳に用いる単語辞書と文パターンを自動的に作成する．そして，パターン翻訳におけるコストの問題を解決する．

また，パターン翻訳は翻訳精度が高ければカバー率が低く，カバー率が高ければ翻訳精度が低くなる傾向にある．この理由として，入力文に適合した文パターンが保持する字面が関係していると考えた．具体的には，適合した文パターンが保持する字面の数が多ければ翻訳精度は高くなり，少なければ翻訳精度が低くなるということである．そこで本研究では，翻訳精度の問題に対して，入力文と文パターンの字面を比較する．そして字面が多く一致する文パターンを優先して選択する．

さらに，カバー率には入力文が文パターンに適合しなければ翻訳文が出力されない問題がある．本研究ではカバー率の問題に対して，大量の文パターンと単語辞書を作成することで改善を試みる．

本研究では英日方向のパターン翻訳を行う．プログラムで自動作成した単語辞書と文パターンを用いて得た日本語翻訳文に対して，言語翻訳確率(tri-gram)を用いた絞込みを行い，出力する日本語翻訳文を決定する．最後に日本語翻訳文に対して自動評価と人手評価を行い提案手法の有効性を調査する．

本論文の構成は以下の通りである．第2章で従来の英日パターン翻訳システムについて説明し，第3章で英日統計翻訳システムについて説明する．第4章で提案する翻訳システムについて説明する．第5章で実験条件を述べ，第6章で実験結果を示す．第7章で追加実験について説明し，第8章で本研究の考察を述べる．

平成26年3月13日