未知語処理に使用している,対訳単語辞書を調査する研究がある.中村ら[2]は,対訳単語辞書の日本語単語と英語単語の適切な対応の数を調査した.しかし,この研究ではGIZA++[6]の対訳単語確率の計算においてIBM翻訳モデル[3]のModel1のみの調査で,他のモデルでの調査が行われていない.GIZA++の対訳単語確率を計算するモデルとしては,IBM Model1〜Model5やHMM[4]などがある.また未知語の多くは,対訳学習文中に1回のみ出現する単語(以下,頻度1単語)である.
そこで本研究では,IBM Model1〜Model5とHMMにおいて頻度1単語の精度を調査する.具体的には,対訳学習文とGIZA++の対訳単語確率(IBM Model1〜Model5とHMM)を用いて対訳単語を作成する.作成した対訳単語から枝刈りを行い,対訳単語辞書を作成する.そして対訳単語辞書に含まれる頻度1単語の精度を調査する.結果として,頻度1単語の精度はどのモデルも大きな差はなかった.