はじめに

統計翻訳とは, 翻訳する言語の文とその対訳学習文を大量の対訳データを使用して, 統計的モデルを学習し, 自動翻訳システムを構築する機械翻訳の１つである.

TDSMT は学習文対と変換テーブルを用いて翻訳を行う手法である. 学習文対を変換し, 翻訳を行うため文法性の高い翻訳が期待できる. しかし, 変換テーブルの学習文対と入力文が完全一致しなければ変換の適用が不可能なため, 入力文の数に対する出力文の数(以下カバー率)が少ない.

出力可能な入力を増やすために, 安場らは未知語出力用変換テーブルを自動作成する手法を提案した. しかしながら, この手法では出力文中に未知語が日本語のまま出力される. そのため, 相当する文意が読み取れないという問題がある. そこで本研究では, TDSMTにおける未知語の翻訳をニューラル機械翻訳(以下, NMT)によって行い, 翻訳精度の向上を目指す. 統計翻訳では, 未知語が出現した際に, その出力が得られないが, NMTはあらゆる入力に対して, 必ずなんらかの出力が存在する. 本研究ではこの性質を未知語処理に利用する.

本論文の構成を以下に示す. 第2章で, 従来の研究について述べる. 第3章で, 統計機械翻訳の未知語処理におけるニューラルネットワークの利用について述べる. 第4章で, 本研究の実験結果を述べる. 第5章で, 本研究の考察を述べる.