次へ: 英日パターン翻訳システム
上へ: honron
戻る: 表一覧
目次
機械翻訳の歴史は,大きく3つの世代に分類できる.第一世代は1960年代半ばに提案されたパターン翻訳である.パターン翻訳は,人手で作成した大量の文パターンを用意し,入力文が文パターンに適合した場合に翻訳文を出力する方法である.しかし,1966年に,機械翻訳における研究成果を悲観視するALPACレポートが発表され,機械翻訳の研究は衰退した.
第二世代は1980年代に提案された用例翻訳である.用例翻訳は,コーパスに含まれる例文と入力文の類似性を利用した翻訳方法である.入力文に対して類似している用例を参照し,それらの用例を組み合わせて翻訳を行う.用例翻訳は1980年代半ばに,商用化が開始したが,高価であったため,一般には普及しなかった.また,翻訳精度も,評価できるとは言い難かった.
第三世代は1990年代前半に提案された統計翻訳である.統計翻訳は,対訳データより自動的に翻訳規則を獲得し,言語を統計的に扱い翻訳する方法である.現在は,2000年代始めに提案された,統計翻訳に属する句に基づく統計翻訳が主流である.
本研究では,統計翻訳において,単語の対応が自動的にとれることに着目し,英日パターン翻訳の精度調査を行う.パターン翻訳は長所として,入力文が文パターンに適合した場合,翻訳精度の高い文が得られる.しかし,通常文パターン辞書の作成は人手で行うため開発に時間がかかる.
文パターン辞書の開発コストをなくすため,本研究では文パターンをプログラムで自動作成する.そしてパターン翻訳から得られた翻訳候補文に対して,tri-gramを用いた絞込みを行い,翻訳文を選択する.実験の結果から,用いたtri-gramのスコアが高い翻訳文において,翻訳精度の高い文が得られた.
なお,過去に西村ら[1]はパターン翻訳と句に基づく統計翻訳を組み合わせた手法(以降,先行手法と述べる)で日英翻訳を行い,翻訳精度を求めている.そこで,考察として先行手法と比較した際の利点,欠点について報告する.また句に基づく統計翻訳との精度比較を行い結果を報告する.実験の結果,条件付きながら,従来の英日統計翻訳システムと比べて提案手法の有効性が確認できた.
本論文の構成は以下の通りである.第2章で従来の英日パターン翻訳システムについて説明し,第3章で英日統計翻訳システムについて説明する.第4章で本研究で使用するデータベースについて説明し,第5章では提案する翻訳システムについて説明する.第6章で実験条件を述べ,第7章で実験結果を示す.第8章で追加実験方法と結果について示し,第9章で本研究の考察を述べる.
eki takashi
平成24年3月13日