next up previous contents
次へ: おわりに 上へ: 考察 戻る: 関連研究との比較   目次

誤り解析

分野ごとの属性を調べるために,各出力文に対して誤り解析を行った.解析の結果,分野ごとの特徴が出た出力例を表7.1に示す.
表: 英日翻訳における対比較の出力例
入力文 The noise wakened him .
正解文 その 音 で 彼 は 目 を 覚まし た 。 
+辞書文の出力例
ベースライン 彼 は その 音 目覚め た 。
+辞書文 その 物音 で 彼 は 目覚め た 。
+特許翻訳文の出力例
ベースライン 彼 は その 音 目覚め た 。
+特許翻訳文 彼 は その 音 目覚め た 。
+Wikipedia文の出力例
ベースライン 彼 は その 音 目覚め た 。
+Wikipedia文   騒音 が 目覚め た 。

テスト文と同分野の辞書文を追加した場合,ベースラインと比較して文法が良くなっている.この結果より,翻訳精度が向上したことがわかる.また,テスト文と別分野の特許翻訳文を追加した場合,ベースラインと同じ出力結果となっている.この結果より,翻訳精度に変化がなかったことがわかる.一方,テスト文と別分野のWikipedia文を追加した場合, ベースラインと比較して,出力文に``彼''が抜けている.この結果より,翻訳精度が悪くなったことがわかる.

この結果より,辞書文を追加する実験では,同分野の学習データが増えたため,翻訳精度が向上したと考えられる. 翻訳精度が悪くなってしまったWikipedia文では,原データの特性として``彼''のような人称代名詞をあまり用いないため,多量のモノリンガルデータにより,``彼''の翻訳確率が下がってしまったと考えられる. 特許翻訳文は同様に,人称代名詞をあまり用いない特性を持つが,Wikipedia文と比較して,モノリンガルデータの量が少なかったため,``彼''の翻訳確率にあまり影響が出なかったと考えられる.

この問題を解決するために,分野が言語モデルに与える影響を調整するため,各モノリンガルデータに言語アダプテーションを用いる手法が考えられる.



s102025 平成27年3月9日