外部辞書データより抽出した対訳句の利用

7章の実験では,追加する対訳句には対訳学習文から人手もしくは自動で作成したものを利用した.これより,NMTにおいて,対訳学習文外の情報を有しない対訳句利用した場合であっても,翻訳精度は向上することが確認できた.

本節では,対訳文外の情報を含むデータを有する外部辞書より抽出した対訳句を対訳文に追加する手法について実験を行う.この手法の利点および欠点について,対訳文から作成された対訳句を利用する手法と比較して,以下に示す.

利点1.
既に作成された外部辞書などの対訳句コーパスを有していれば,対訳文から対
   訳句を作成する必要がなく,特に人手対訳句を利用する手法と比較してコストが
   小さい.
利点2.
対訳文外の情報を有する対訳句コーパスを利用することで,対訳文に存在しない
   語彙などの情報を拡張した翻訳の実現が見込める.これに対して,対訳文より対
   訳句を作成する手法では翻訳文中に未知語(対訳文に存在しない単語)の翻訳は
   理論上不可能である.
欠点1.
対訳文とは別の対訳句コーパスを備えるコストが必要となる.
欠点2.
対訳文コーパスと対訳句コーパスのドメインが乖離している場合には翻訳精度
   が低下する可能性がある.また,この問題が利用するコーパスのペアにおいて生
   じるか否かは実験的に検証する必要がある.
欠点3.
対訳文外の対訳句コーパスを利用することで,学習におけるNMTの語彙数が大
   きくなり,出力における分類問題が複雑になるため,精度低下や計算コストの増
   大が生じる可能性がある.