誤り解析

表: 英日翻訳における対比較の出力例
入力文	The noise wakened him .
正解文	その音で彼は目を覚ました。
+辞書文の出力例
ベースライン	彼はその音目覚めた。
+辞書文	その物音で彼は目覚めた。
+特許翻訳文の出力例
ベースライン	彼はその音目覚めた。
+特許翻訳文	彼はその音目覚めた。
+Wikipedia文の出力例
ベースライン	彼はその音目覚めた。
+Wikipedia文	騒音が目覚めた。

テスト文と同分野の辞書文を追加した場合，ベースラインと比較して文法が良くなっている．この結果より，翻訳精度が向上したことがわかる．また，テスト文と別分野の特許翻訳文を追加した場合，ベースラインと同じ出力結果となっている．この結果より，翻訳精度に変化がなかったことがわかる．一方，テスト文と別分野のWikipedia文を追加した場合，ベースラインと比較して，出力文に``彼''が抜けている．この結果より，翻訳精度が悪くなったことがわかる．

この結果より，辞書文を追加する実験では，同分野の学習データが増えたため，翻訳精度が向上したと考えられる．翻訳精度が悪くなってしまったWikipedia文では，原データの特性として``彼''のような人称代名詞をあまり用いないため，多量のモノリンガルデータにより，``彼''の翻訳確率が下がってしまったと考えられる．特許翻訳文は同様に，人称代名詞をあまり用いない特性を持つが，Wikipedia文と比較して，モノリンガルデータの量が少なかったため，``彼''の翻訳確率にあまり影響が出なかったと考えられる．

この問題を解決するために，分野が言語モデルに与える影響を調整するため，各モノリンガルデータに言語アダプテーションを用いる手法が考えられる．