next up previous contents
Next: 謝辞 Up: sotsuron Previous: 人手評価例:差なしの例   目次

おわりに

機械翻訳の問題点の1つとして,入力文中の単語が未知語として出現する問題点がある.この対策として川原らは,IBM Model1を用いた未知語処理を提案した.この手法は,対訳学習文とIBM Model1 をもとに作成した対訳単語辞書を用いて,未知語処理を試みた.しかし,未知語処理にはまだ課題がある.この未知語処理の課題の一つに対訳単語辞書の精度が低いことが考えられる.

未知語処理に用いている対訳単語辞書に関しては,中村らが対訳単語辞書の日本語単語と英語単語の適切な対応の数を調査した.しかし,この研究ではGIZA++の対訳単語確率の計算においてIBM翻訳モデルのModel1のみの調査で,他のモデルでの調査が行われていない.GIZA++の対訳単語確率を計算するモデルとしては,IBM Model1〜Model5やHMMなどがある.また未知語の多くは,頻度1単語である.

本研究では,IBM Model1〜Model5とHMMにおいて頻度1単語の精度を調査した.具体的には,対訳学習文とGIZA++の対訳単語確率(IBM Model1〜Model5とHMM)を用いて対訳単語を作成した.作成した対訳単語から枝刈りを行い,対訳単語辞書を作成した.そして対訳単語辞書に含まれる頻度1単語の精度を調査する.結果として,頻度1単語の精度はどのモデルも大きな差はなかった.この結果から,一番単純なモデルであるIBM Model1を使用すれば十分であると考える.



2019-03-08