next up previous contents
次へ: 自動評価と人手評価の比較のまとめ 上へ: 翻訳実験 戻る: 自動評価結果   目次


人手評価結果

本研究では,ルールベース翻訳に対して,ハイブリッド翻訳,句に基づく統計翻訳, 階層型統計翻訳をそれぞれ比較することで,対比較評価を行う. 手順としては,まず日英翻訳に対して,ハイブリッド翻訳, 句に基づく統計翻訳および階層型統計翻訳の出力文からランダムに各100文抽出する. 次に抽出した100文に対して,1文毎に対比較評価を行う. なお,評価基準を表[*]に以下に示す.さらに人手評価の結果を表[*]に示す.
=5pt
表: 評価基準
ルールベース翻訳◯ ルールベース翻訳の方が優れている
ハイブリッド翻訳◯ ハイブリッド翻訳が
  ルールベース翻訳より優れている
句に基づく統計翻訳◯ 句に基づく統計翻訳が
  ルールベース翻訳より優れている
階層型統計翻訳◯ 階層型統計翻訳が
  ルールベース翻訳より優れている
差なし 意味に差がない or
  共に意味が不明瞭である
同一出力 出力文が完全に同じ文である


=3pt
表: 人手評価結果
ルールベース翻訳◯ ハイブリッド翻訳◯ 差なし 同一出力
23 5 59 13
ルールベース翻訳◯ 句に基づく統計翻訳◯ 差なし 同一出力
34 3 63 1
ルールベース翻訳◯  階層型統計翻訳◯ 差なし 同一出力
30 3 66 1

[*]の結果より,すべての人手評価において ルールベース翻訳が最良であることが示された.



平成24年3月13日