次へ: 日英統計翻訳システム 上へ: paper 戻る: 表一覧目次

はじめに

機械翻訳の歴史は文法規則や変換規則などを用いて翻訳を行うルールベース翻訳から始まる．そして1960年代半ばに，大量の翻訳対から作成した文パターン辞書を用いて翻訳を行うパターン翻訳が提案される．パターン辞書は人手で作成するので，開発に時間がかかる[2]が，文パターンに適合した場合に翻訳精度の高い翻訳文が得られる．1990年代前半に「語に基づく統計翻訳」が提案された. 初期の統計翻訳は，語に基づく翻訳モデルを用いていた．語に基づく翻訳モデルでは，単語の対応作成時に，対応が無い単語には NULLを対応させる．しかし，双方向の対応を調べる時， NULLに対する翻訳候補には，全ての単語が挙げられる．このことが，語に基づく翻訳モデルにおいて翻訳精度が低下する原因の一つになっていた．

しかし，2000年の初めに「句に基づく統計翻訳[3]」が提案され，「単語に基づく統計翻訳」と比べて翻訳精度が高いことから，現在，機械翻訳において統計翻訳が主流となっている．2005年，「階層型統計翻訳[5]」が提案され，文法構造が大きく異なる言語間での翻訳においての翻訳精度が期待されている．

2011年，後藤らの研究により様々な翻訳手法において翻訳結果の自動評価と人手評価が行われた．その研究で，特許文を用いて階層型統計翻訳と句に基づく統計翻訳の評価を行った．日本語-英語間の翻訳の自動評価は階層型統計翻訳が高く，英語-日本語間の翻訳の人手評価は句に基づく統計翻訳が高くなった．しかし，階層型統計翻訳と句に基づく統計翻訳の性能の差を調査するための人手解析までは行われていない．理由として解析が困難な特許文を使用している点が挙げられる．

そこで本研究では，比較的容易に解析可能な単文・重文複文を用いて翻訳を行い翻訳結果の解析を行った．その結果，単文・重文複文において句に基づく統計翻訳より階層型統計翻訳が自動評価と人手評価共に高いスコアが出た．この原因として，句に基づく統計翻訳は語の並びによって翻訳するのに対し，階層型統計翻訳は階層的に翻訳を行うため，文の構造が考慮されているのではないかと考えた．よって，翻訳出力が，主語と述語が翻訳されているか調査した．その結果，句に基づく統計翻訳が12文，階層型統計翻訳は25文だった．結果より，階層型統計翻訳が文の構造を考慮しているため，翻訳精度が高くなったと考えられる．

本論文の構成は以下の通りである．2章で統計翻訳システムの概要を説明する． 3章で評価方法について説明する．4章で実験について説明する． 5章で実験結果について説明する．6章で考察し7章でまとめる．

root 平成24年3月22日