next up previous contents
次へ: 実験環境 上へ: 評価 戻る: WER   目次


人手評価

人手評価は,利点として,文法や意味を正確に評価可能であることが挙げられる. しかし欠点として,時間と人件費が膨大にかかることが挙げられ,大量の文の評価は極めて難しい. 本実験では,対比較評価を行う.対比較評価とは,各出力文を比較することで評価を行う評価法である. 対比較評価の判断基準については[*]節で詳しく説明する.

また人手評価には,他にも様々な評価方法がある.例えば,了解度と正確さの観点から9段階で評価を行う方法, 理解容易性と忠実度の観点から5段階で評価を行う方法,さらに10点満点で評価を行う方法などがある. 例として10点満点法[10]を表[*]に示す.


=3pt
表: 10点満点評価法
得点 評価点の付与基準
10点 英語らしく明解で完全に理解できる.
  用語,語形,構文に誤ったところがない.
9点 もう少し英語らしい適切な言い方があるが,他は上記に同じ.
8点 明解でほぼ完全に理解できる.
  しかし,あまり重要でない点で文法やスタイルに不適切さがあり,
  おかしな言葉使いがあるが,訂正は容易.
7点 概して明瞭で理解できるが,スタイル,用語,構文が上記より若干貧弱.
6点 言いたいことか大体すぐ分かる.
  しかし,スタイル,用語,表現選択のまずさ,翻訳もれの言葉,
  文法的に誤った配置などがあり,包括的な理解が妨げられる.
  ポストエディットのできる限界.
5点 良く考えると概要はほぼ分かる.
  用語のまずさ,奇怪な構文,訳し漏れの言葉があり,正確さを欠く.
4点 分かるような気がするが,実際には分からぬとも言える.
  仮装行列のような訳.用語,構文,表現が全般的におかしく,
  重要語の訳しもれがある.
3点 全般的に理解不能.
  意味がないように見えるが,よく考えてみると言いたいこと
  についての仮説ができる.部分的には分かるところがある.
2点 部分的にも全体的にも理解不能だが,言いたいことが匂う.
1点 殆ど絶望的だが,完全に無意味だとは言い切れない.
0点 完全に理解不能.
  いくら考えても言っていることがさっぱり分からない.
  (アポートや訳文出力の無いものはこのランク)



平成24年3月13日