next up previous contents
次へ: 問題点 上へ: 人手評価と自動評価の違い 戻る: 人手評価と自動評価の違い   目次


先行研究

松本ら[2]は,ルールベース翻訳とハイブリッド翻訳を用いて,人手評価と自動評価について考察した.結果,ルールベース翻訳とハイブリット翻訳の比較で,すべての人手評価と自動評価の結果に差が生じた.原因として,出力文の動詞の語訳を挙げている.動詞の語訳によって翻訳品質が下がり,人手評価が低下した.一方,自動評価は,動詞などの重要な単語でも,一定の割合で評価しているため,評価は低下しない.また人手評価は文全体の単語に着目し,評価する.一方,自動評価は,出力文と参照文を比較し,単語単位で均一に評価する.よって自動評価と人手評価に差が生じたと結論づけた.

7.1に先行研究の自動評価の結果を示す.太字の数値は各自動評価でもっとも高い数値を表している.また表4.3に,先行研究の人手評価の結果を示す.表4.3の評価基準は表[*]に示す.


=2pt
表: 自動評価結果
  RBMT PSMT HSMT RBMT+PSMT
BLEU 0.1320 0.1341 0.1352 0.1798
NIST 4.8260 4.9239 4.9628 5.5426
METEOR 0.4724 0.4544 0.4551 0.5078
RIBES 0.7281 0.7114 0.7198 0.7540


=5pt
表: 評価基準
ルールベース翻訳◯ ルールベース翻訳の方が優れている
ハイブリッド翻訳◯ ハイブリッド翻訳が
  ルールベース翻訳より優れている
句に基づく統計翻訳◯ 句に基づく統計翻訳が
  ルールベース翻訳より優れている
階層型統計翻訳◯ 階層型統計翻訳が
  ルールベース翻訳より優れている
差なし 意味に差がない or
  共に意味が不明瞭である
同一出力 出力文が完全に同じ文である


=3pt
表: 人手評価結果
ルールベース翻訳◯ ハイブリッド翻訳◯ 差なし 同一出力
23 5 59 13
ルールベース翻訳◯ 句に基づく統計翻訳◯ 差なし 同一出力
34 3 63 1
ルールベース翻訳◯  階層型統計翻訳◯ 差なし 同一出力
30 3 66 1

4.1の自動評価は,ハイブリッド翻訳の時,もっとも高い評価をしている. しかし,表4.3の人手評価は,ハイブリッド翻訳より,ルールベース翻訳が高い評価をしている. よって,先行研究で人手評価と自動評価の差が確認された.


next up previous contents
次へ: 問題点 上へ: 人手評価と自動評価の違い 戻る: 人手評価と自動評価の違い   目次
平成25年2月12日