おわりに

本研究では, TDSMTの未知語が原言語のまま出力されるという問題に着目し, 未知語処理にNMTを使用する手法を提案した. TDSMTは, 未知語処理のために, 未知語出力用変換テーブルを作成する. 未知語出力用変換テーブルは, 「ABならばCC」と表現できる. これにより, カバー率を向上するが, 出力文に原言語の句が出現する.

そこで, 本研究では, 新たな未知語出力用変換テーブルを作成する手法を提案した. 提案手法では未知語CをNMTで翻訳した結果をDとした. つまり, 提案手法で作成される未知語出力用変換テーブルは「ABならばCD(CをNMTで翻訳した結果)」と表現できる. 本研究の提案手法では, 入力文の全ての句が未知語となる可能性があると考えた. まず, 入力文から連続未知単語を作成し, それをNMTにより翻訳した. そして, 翻訳結果を変換テーブルのDに格納し, 未知語出力用変換テーブルを作成した.

実験より, 入力文100文に対する人手評価では, ○が14文に対して, $ \times $が12文であり, 全体の翻訳精度は向上しなかった. また, 従来手法で未知語(日本語)を含んでいた文章のみに着目して, 人手評価を行った. 人手評価の結果, ○が12文に対して, $ \times $が2文であり, 未知語を含む文章は翻訳精度が向上していることが確認できた.

本研究の精度を向上させる手法として, 未知語のみに対して未知語処理を行う手法が考えられる. 具体的には, 事前に未知語処理を行うのではなく, 一度従来手法で翻訳を行った後に, 出力文に出現した日本語の部分をNMTで翻訳する手法が考えられる.