Next: 目次 Up: sotsuron Previous: sotsuron 目次

概要

機械翻訳の問題点の1つとして，入力文中の単語が未知語として出現する問題点がある．この対策として川原ら[1]は，IBM Model1を用いて未知語を翻訳する手法（以下，未知語処理）を提案した．この手法は，対訳学習文とIBM Model1をもとに作成した対訳単語辞書を用いて，未知語処理を翻訳した．しかし，この手法にはまだ課題がある．未知語処理の課題の一つとして対訳単語辞書が挙げられる．使用した対訳単語辞書の精度が低いことが，翻訳精度の低下を招いていると考える．

未知語処理に使用している，対訳単語辞書を調査する研究がある．中村ら[2]は，対訳単語辞書の日本語単語と英語単語の適切な対応の数を調査した．しかし，この研究ではGIZA++[6]の対訳単語確率の計算においてIBM翻訳モデル[3]のModel1のみの調査で，他のモデルでの調査が行われていない．GIZA++の対訳単語確率を計算するモデルとしては，IBM Model1～Model5やHMM[4]などがある．また未知語の多くは，対訳学習文中に1回のみ出現する単語（以下，頻度1単語）である．

そこで本研究では，IBM Model1～Model5とHMMにおいて頻度1単語の精度を調査する．具体的には，対訳学習文とGIZA++の対訳単語確率（IBM Model1～Model5とHMM）を用いて対訳単語を作成する．作成した対訳単語から枝刈りを行い，対訳単語辞書を作成する．そして対訳単語辞書に含まれる頻度1単語の精度を調査する．結果として，頻度1単語の精度はどのモデルも大きな差はなかった．

2019-03-08