概要

近年,機械翻訳の分野においてNeural Machine Translation(以下,NMT)[1]がある.しかし,NMTの翻訳精度は人手による翻訳の精度には及ばない.翻訳精度の向上の手法の一つに,大量の対訳学習文を用いる手法がある.しかし, 学習に用いるデータが対訳学習文のみの場合,要素合成法の問題から精度の向上に限界がある.

要素合成法とは、入力文を単語ごとに翻訳し,各翻訳結果を組み合わせることで出力文を形成する手法である.要素合成法の問題として,翻訳結果の文全体の意味が通じなくなることがある.そこで,入力文を単語ごとではなく句ごとの翻訳で,文の意味を保ったまま翻訳が可能であると推察する.

本論文では,日 英NMTにおいて対訳句を利用する手法(以下,提案手法)を示す.対訳句は対訳学習文から自動抽出したものを用いる.対訳句を追加で,入力文を句ごとに翻訳し,文全体の意味が通じる出力分が形成される.

評価はBLEU等の自動評価値による自動評価と対比較で人手評価を行った.自動評価においては,提案手法がベースラインより自動評価値が良好であった.人手評価においては,提案手法がベースラインより良好だと評価された出力文が 27文に対して,ベースラインが提案手法より良好だと評価された出力文が14文となった.両評価結果より,ベースラインと比較して提案手法では翻訳精度が向上することが確認された.

考察として,対訳句の精度を変更した場合の実験を行った.対訳句の精度を50%,75%,90%にそれぞれ変更し,学習を行った.結果として,対訳句の精度が75%の時点で翻訳精度はベースラインより低下していることが確認された.この結果から,提案手法において高い対訳句の精度が必要であると推察される.

本研究で対訳句の追加をする手法で翻訳精度が向上した理由は,対訳句の追加で入力文を句ごとに翻訳したからだと考えている.句ごとの翻訳で入力文の意味が通じる出力文を得ることができる.対訳句は対訳学習文から自動で抽出したものを用いており,外部の情報を持っていない.

本実験では,間違えてクローズドデータを用いて実験を行った.本論で述べる考え方を参考にしてほしい.