はじめに

近年,機械翻訳においてニューラル機械翻訳(Neural Machine Translation; NMT)[1]が主流となっている. NMTはAttentionという仕組みに基づき入力文と出力文における語句の対応情報を学習する手法であり, 従来の句に基づく統計翻訳(Phrase-based SMT; PBSMT)などの手法と比較して流暢性の高い翻訳文を出力することが可能である. 一方で,入力文中の語句に対する出力文中の語句の対応 (Attention) の学習に誤りがある場合には,翻訳精度が低下するという問題がある.

従来のPBSMTにおいて,語句の対応 (アライメント) を学習する目的で用いられる翻訳モデルに関しても同様の問題が指摘されており,アライメントの精度を向上させる手法が提案されている. Popovicら[2]は,セルビア語英語間およびスペイン語英語間のPBSMTにおいて,翻訳モデルの学習データとして,対訳文に対訳文外の対訳句データを追加し,翻訳精度の向上を実現している.日野ら[3]も同様の方法を用いて日本語英語間におけるPBSMTの翻訳精度を向上させている. また,池淵ら[4]は外部の対訳句データを利用せず,対訳文より作成した対訳句データを日英PBSMTの翻訳モデルの学習データに追加し,翻訳精度の向上が得られたとしている.池淵らはこの理由として,対訳句を追加することで正しい句の対応が強調されたためであると考察している.

そこで,本研究では,日英NMTにおいて対訳句を利用する手法を提案する. 日英NMTの学習データにおいて,対訳文に対訳文より作成した対訳句を追加することで,句レベルの対応情報を強調する. これにより,語句の対応情報をモデル化するAttentionを強化し,日英NMTの翻訳精度の向上を目指す.

また,本研究の提案手法において利用する対訳句には,対訳文から作成した対訳句のみを用い,外部の情報を有する対訳句データは利用しない. これは,対訳文外の対訳句コーパスを用いる場合,句レベルの対応情報が強調されることに加えて,それ以外の情報(語彙情報など)が拡大することにより翻訳精度に影響を与える可能性があるためである. したがって,本研究では,対訳文から作成した対訳句のみを追加する手法を用いて日英NMTの翻訳実験を行い, 語彙などの情報が拡大しない条件で, 句レベルの対応情報を強調することのみにより翻訳精度が向上することを検証する.

さらに,追加する対訳句の作成手法として,人手で作成する手法と自動で作成する手法の2通りの手法を提案し,それぞれについて対訳句の精度と,対訳句を日英NMTに利用する際の翻訳精度を調査する.

本論文の構成は以下の通りである. まず,2章でニューラル機械翻訳システムの概要を示し,各モデルの構成 について述べる. 3章では,本研究に関連する研究について述べる. 4章では,本研究の提案手法について述べる. 5章では,実験に用いるデータやツールといった実験環境について述べる. 6章では,対訳句の抽出結果を示す. 7章では,提案手法の結果を示す. 8章では,考察を行う. 9章および10章では,それまでの議論を踏まえて,追加実験を行う. 最後に,11章で結論を述べ,まとめる.