未知語処理の1つとして,対訳学習文と対訳単語確率をもとに作成した対訳単語辞書を用いる手法がある[1].そして,対訳単語辞書の精度を調査する研究がある[2].中村らの研究[2]では,対訳単語辞書の日本語単語と英語単語の適切な対応の数を調査した.この研究の問題点は,主に2点ある.1点目は,GIZA++[6]の対訳単語確率の計算においてIBM翻訳モデル[3]のModel1のみの調査で,他のモデルでの調査が行われていない.2点目は,対訳単語辞書に含まれる全ての対訳単語を調査対象としており,未知語処理を対象としていない.対訳単語確率を計算するモデルとしては,IBM Model1〜Model5やHMM[4]などがある.また未知語の多くは,対訳学習文中に1回のみ出現する単語(以下,頻度1単語)である.
そこで本研究では,IBM Model1〜Model5とHMMにおいて頻度1単語の精度を調査する.具体的には,対訳学習文とGIZA++の対訳単語確率(IBM Model1〜Model5とHMM)を用いて対訳単語を作成する.作成した対訳単語から枝刈りを行い,対訳単語辞書を作成している.そして対訳単語辞書に含まれる頻度1単語の精度を調査する.
本論文の構成を以下に示す.第2章で従来手法について説明し,第3章で調査手法ついて説明する.そして第4章で実験について,第5章で実験結果を示す.そして,第6章では本研究の考察を述べる.