next up previous contents
次へ: 未知語の減少 上へ: 鳥バンクと英辞郎の差 戻る: 例3   目次

未知語を含む文の割合調査

ベースラインよりも提案手法の翻訳精度が向上した原因として,出力文における未知語の減少が考えられる. そこで,各翻訳実験の出力文1万文中に未知語を含む文数を調査した. 調査結果を表[*]に示す.


表: 出力文1万文中に未知語を含む文数
  単文 重文複文
  日英翻訳 英日翻訳 日英翻訳 英日翻訳
ベースライン 4,676 3,868 5,568 4,455
提案手法        
(鳥バンク) 1,516 1,541 563 497
提案手法        
(英辞郎) 1,200 1,210 1,819 1,274

[*]の結果から,どちらの提案手法もベースラインの出力文と比べて未知語を含む文数の減少が確認できた. さらに,単文コーパスの翻訳実験において,提案手法(英辞郎)は最も未知語が減少した. また,重文複文コーパスの翻訳実験において,提案手法(鳥バンク)は最も未知語が減少した. この結果は自動評価結果においての単文コーパスを用いた翻訳実験での ``ベースライン<提案手法(鳥バンク)<提案手法(英辞郎)"の傾向と,重文複文コーパスを用いた翻訳実験での ``ベースライン<提案手法(英辞郎)<提案手法(鳥バンク)"というの傾向と同じである. 未知語の減少が提案手法の翻訳精度の向上の原因であると考えられる.



平成25年2月12日