NMTにおいて学習時の語彙数はニューラルネットワークの出力層の次元数に相当する.語彙数が多くなることは出力層が高次元になることに等しく,語彙数が多くなることで計算量が膨大となる.このため,計算量削減の目的で,対訳学習文中の一部の単語を特殊記号に置き換えることで,語彙数を制限する手法が用いられる.この際,対訳学習文中の頻度上位数万単語を利用し,それ以外の単語を特殊記号に置き換える方法が一般的である[4][1].
この手法の問題として,特殊記号は意味を持たない記号であるため,低頻度語を含む入力文に対する正しい出力が学習されないことが挙げられる. 関沢ら[5]はこれに対して,対訳学習文中の低頻度語を特殊記号へ置換せず,同義の高頻度語に言い換える手法を提案している. しかし,この手法は対訳学習文の他に言い換え辞書を準備する必要がある. また,言い換えによる変換は,元の表現を完全に保持できるとは限らず,繰り返し言い換えを行うことで精度が低下する可能性がある.
本研究では, 上記の問題に対して,低頻度語を含む全語彙を用いて学習を行う場合においても,翻訳精度が低下する可能性があることを指摘する.この理由として,低頻度語は学習の確率値の統計的信頼性が低いこと,さらに対訳学習文中の語彙の多くを占めることが挙げられる.以上を踏まえ,本研究では,NMTにおける低頻度語の問題を改善する新たな手法を提案する. 提案手法により,低頻度語を含む全語彙を学習する方法と比較して翻訳精度の向上が確認できた.
本論文の構成を以下に示す.第2章でニューラル機械翻訳について,第3章でIBM 翻訳モデルについて,第4章で先行研究について説明する.そして,第5章で提案手法のシステムについて説明する.その後,第6章で実験環境を,第7章で実験結果を示し,第8章で本研究の考察を述べる.