概要

近年,機械翻訳においてニューラル機械翻訳(Neural Machine Translation; NMT)[1]が主流となっている. NMTはAttentionという仕組みに基づき入力文と出力文における語句の対応情報を学習する手法であり, 従来の句に基づく統計翻訳(Phrase-based SMT; PBSMT)などの手法と比較して流暢性の高い翻訳文を出力することが可能である. 一方で,入力文中の語句に対する出力文中の語句の対応 (Attention) の学習に誤りがある場合には,翻訳精度が低下するという問題がある.

従来のPBSMTにおいて,語句の対応 (アライメント) を学習する目的で用いられる翻訳モデルに関しても同様の問題が指摘されており,アライメントの精度を向上させる手法が提案されている. Popovicら[2]は,セルビア語英語間およびスペイン語英語間のPBSMTにおいて,翻訳モデルの学習データとして,対訳文に対訳文外の対訳句データを追加し,翻訳精度の向上を実現している.日野ら[3]も同様の方法を用いて日本語英語間におけるPBSMTの翻訳精度を向上させている. また,池淵ら[4]は外部の対訳句データを利用せず,対訳文より作成した対訳句データを日英PBSMTの翻訳モデルの学習データに追加し,翻訳精度の向上が得られたとしている.池淵らはこの理由として,対訳句を追加することで正しい句の対応が強調されたためであると考察している.

そこで,本研究では,日英NMTにおいて対訳句を利用する手法を提案する. 日英NMTの学習データにおいて,対訳文に対訳文より作成した対訳句を追加することで,句レベルの対応情報を強調する. これにより,語句の対応情報をモデル化するAttentionを強化し,日英NMTの翻訳精度の向上を目指す.

また,本研究の提案手法において利用する対訳句には,対訳文から作成した対訳句のみを用い,外部の情報を有する対訳句データは利用しない. これは,対訳文外の対訳句コーパスを用いる場合,句レベルの対応情報が強調されることに加えて,それ以外の情報(語彙情報など)が拡大することにより翻訳精度に影響を与える可能性があるためである. したがって,本研究では,対訳文から作成した対訳句のみを追加する手法を用いて日英NMTの翻訳実験を行い, 語彙などの情報が拡大しない条件で, 句レベルの対応情報を強調することのみにより翻訳精度が向上することを検証する.

結果として,人手で作成した対訳句を用いた手法の評価では,ベースラインの方が正確性が高いと評価された文が出力文100文中14文であるのに対して,人手で作成した対訳句を追加する手法の方が正確性が高いと評価された文が44文となった.また,自動で作成した対訳句を用いた手法では,ベースラインの方が正確であると評価された文が出力文100文中 10文 であるのに対して,自動で作成した対訳句を追加する手法の方が正確であると評価された文が 29文 となった.これより,ベースラインと比較して対訳句を追加する2つの手法では翻訳精度が向上することが確認された.本研究で用いた2種類の対訳句はいずれも対訳文から作成され,対訳文外の語彙などの情報を有しないものである.したがって,対訳句を追加する提案手法により,NMTにおいて語句の対応をモデル化するAttentionが強化され,翻訳精度が向上したと考えられる.