その問題に対して,道祖尾らは,日本語英語間において, -gramを利用して,日英対訳パターンの候補を自動抽出した[1].道祖尾らの日英対訳パターンとは,熟語や連語のような意味的まとまりを持つ表現である.実験の結果,人手評価より,約8割の候補において,日英対訳パターンの作成が可能であると報告した. 北村らは,日本語英語間において,Dice係数と単語の出現回数による閾値を用いて,日英対訳の表現を自動抽出した[2].その結果,閾値が低下した場合においても80〜90%の適合率で対訳表現の抽出を報告した.
また近年,機械翻訳において,統計的機械翻訳(以下,SMTと表記)が注目されている.SMTは対訳文から自動的に翻訳規則を生成し,翻訳を行う方法である.SMTにおける対訳句の抽出方法として,Ochらの方法[3,4]や,BerkeleyAligner[5]における抽出方法がある.Ochらの方法はまず,IBMモデル[6]を用いて単語対応を求める.そして,単語対応よりヒューリスティックを用いて,網羅的に対訳句を抽出する.しかし,この方法は人間が見ると不自然な対訳句を抽出してしまう問題がある.
本研究では,対訳文パターンを用いた対訳句の抽出方法を提案する. 対訳文パターンを人手で大量に作成するにはコストがかかる.そこで本研究では対訳文パターンを自動作成する. 具体的には,対訳文パターンの自動作成方法として,西村らの方法[7]を用いる. そして,対訳文パターンを用いて,対訳テスト文から対訳句を抽出する.実験の結果,6,264句を抽出した. さらに,人手評価において,Ochらの方法よりも優れていることを示した.
本論文の構成は以下の通りである.第2章で日英パターン翻訳システムについて説明し,第3章でOchらの方法による対訳句の抽出方法を説明する.第4章で提案する対訳句の抽出方法について説明し,第5章で本研究で使用するデータベースや閾値について説明する.第6章で実験結果を示し,第7章で考察を述べる.