対訳単語辞書の問題

8.3において,対訳単語辞書の問題により提案手法よりもベースラインの方が良いとされた例が存在した. その例を表8.5に示す.ベースラインは``歌謡コンテスト''を``music contest'',提案手法は``entry contest''と訳しており,ベースラインの方が入力の意味により近いと評価できる.

この例から,対訳単語辞書の精度の問題が指摘できる.提案手法で用いている対訳単語辞書において,``歌謡''に対する訳語が``entry''と誤った対応になっている.


Table 8.5: 提案手法において対訳単語辞書の問題を含む文


提案手法において,このような対訳単語辞書の誤りが出力文全体の翻訳精度の低下を招いている例は131文中16文存在する.これら16文のうち15文は表8.3においてベースライン○もしくは差なしと評価されている.

このことから,提案手法において対訳単語辞書の精度が一つの課題であると考察できる.提案手法の対訳単語辞書は対訳学習文とIBM Model 1を用いて作成しており,IBM Model 1の精度の問題により対訳単語辞書中に不適切な対訳単語が含まれていると考えられる.これは人手で作成した対訳単語辞書を利用することや,対訳単語確率を得る手法を変更すること(例えばIBM Model 2を用いる,など)で改善できる可能性がある.対訳単語辞書の精度が改善できれば,表8.5のような例において,未知語処理後の出力文の翻訳精度向上が期待できる.



s142006 2018-03-06