入力文 | The noise wakened him . |
正解文 | その 音 で 彼 は 目 を 覚まし た 。 |
+辞書文の出力例 | |
ベースライン | 彼 は その 音 目覚め た 。 |
+辞書文 | その 物音 で 彼 は 目覚め た 。 |
+特許翻訳文の出力例 | |
ベースライン | 彼 は その 音 目覚め た 。 |
+特許翻訳文 | 彼 は その 音 目覚め た 。 |
+Wikipedia文の出力例 | |
ベースライン | 彼 は その 音 目覚め た 。 |
+Wikipedia文 | 騒音 が 目覚め た 。 |
テスト文と同分野の辞書文を追加した場合,ベースラインと比較して文法が良くなっている.この結果より,翻訳精度が向上したことがわかる.また,テスト文と別分野の特許翻訳文を追加した場合,ベースラインと同じ出力結果となっている.この結果より,翻訳精度に変化がなかったことがわかる.一方,テスト文と別分野のWikipedia文を追加した場合, ベースラインと比較して,出力文に``彼''が抜けている.この結果より,翻訳精度が悪くなったことがわかる.
この結果より,辞書文を追加する実験では,同分野の学習データが増えたため,翻訳精度が向上したと考えられる. 翻訳精度が悪くなってしまったWikipedia文では,原データの特性として``彼''のような人称代名詞をあまり用いないため,多量のモノリンガルデータにより,``彼''の翻訳確率が下がってしまったと考えられる. 特許翻訳文は同様に,人称代名詞をあまり用いない特性を持つが,Wikipedia文と比較して,モノリンガルデータの量が少なかったため,``彼''の翻訳確率にあまり影響が出なかったと考えられる.
この問題を解決するために,分野が言語モデルに与える影響を調整するため,各モノリンガルデータに言語アダプテーションを用いる手法が考えられる.