未知語処理に用いている対訳単語辞書に関しては,中村らが対訳単語辞書の日本語単語と英語単語の適切な対応の数を調査した.しかし,この研究ではGIZA++の対訳単語確率の計算においてIBM翻訳モデルのModel1のみの調査で,他のモデルでの調査が行われていない.GIZA++の対訳単語確率を計算するモデルとしては,IBM Model1〜Model5やHMMなどがある.また未知語の多くは,頻度1単語である.
本研究では,IBM Model1〜Model5とHMMにおいて頻度1単語の精度を調査した.具体的には,対訳学習文とGIZA++の対訳単語確率(IBM Model1〜Model5とHMM)を用いて対訳単語を作成した.作成した対訳単語から枝刈りを行い,対訳単語辞書を作成した.そして対訳単語辞書に含まれる頻度1単語の精度を調査する.結果として,頻度1単語の精度はどのモデルも大きな差はなかった.この結果から,一番単純なモデルであるIBM Model1を使用すれば十分であると考える.