next up previous contents
次へ: 直訳が望まれる場合 上へ: 追加調査 戻る: オープンテスト   目次

機械評価

参考評価として,BLEU4とNISTによって機械評価を行った.BLEU4は1を満点と して0〜1の値の間で英文を評価する.NISTは0から始まるが上限はない.上限 の参考として正解英文にて評価を行ったところ,11〜13の評価値が出力さ れた.

評価対象は,クローズドテスト,クロスバリデーションを行った250文に,追加 してクローズドテスト,クロスバリデーションを500文行った.この合計750 文を文セットAとして扱う.また,オープンテストを行った400文(内訳:手動 評価を行った200文+追加した200文)を文セットBとする.また,機械評価に用 いるプログラムは「mteval-v10.pl」[3]とする.

評価を行う前に,文セットA,Bの対訳英文の意訳判断を行う.判断結果を表 7に示す.


表 7: 正解英文の意訳文・直訳文の件数
文セット 意訳文 直訳文
A 387 363 750
B 153 247 400

評価は,意訳が望まれる場合と直訳が望まれる場合の区別が無い場合と,区別 が有る場合の2通りについて行った.

結果を表8と表9に示す.


表 8: 意訳・直訳の区別無しにおける機械評価結果
文セット システム BLEU4 NIST
A ITM(closed test) 0.4740 8.1735
  ITM(cross validation) 0.0254 0.4157
  参考1 0.0545 2.8059
  参考2 0.0716 3.3280
  参考3 0.0840 3.4611
B ITM(open test) 0.0032 0.0112
  参考1 0.0629 2.9739
  参考2 0.0915 3.5477
  参考3 0.0845 3.5955


表 9: 意訳・直訳の区別有りにおける機械評価結果
文セット システム 意訳希望 直訳希望
    BLEU4 NIST BLEU4 NIST
A ITM(closed test) 0.4500 7.2629 0.4882 7.9534
  ITM(cross validation) 0.0231 0.7775 0.0246 0.1489
  参考1 0.0417 2.3510 0.0667 3.0414
  参考2 0.0624 2.8482 0.0803 3.5190
  参考3 0.0840 2.9399 0.0961 3.6711
B ITM(open test) 0.0055 0.0192 0.0019 0.0077
  参考1 0.0631 2.6908 0.0628 2.9549
  参考2 0.0845 3.1878 0.0953 3.5153
  参考3 0.0832 3.1925 0.0829 3.5797

機械評価の結果より,クロスバリデーションとオープンテストは一般の翻訳シ ステムと比較すると評価値が低い.これは,パターンに適合しなかった文が多 い,線形要素の選択が未熟,離散記号処理が未実装,といった点が原因として 考えられる. パターンに適合しなかった文が多い点について検証するため,クロスバリデー ションとオープンテストにおいて,この文を除外して機械評価を再度行った. 結果を表10,表11に示す.


表 10: 意訳・直訳の区別無しにおいて,機械評価結果(適合無し除外)
文セット システム BLEU4 NIST
A ITM(cross validation) 0.0607 2.0001
B ITM(open test) 0.0121 0.2565


表 11: 意訳・直訳の区別有りにおける機械評価結果(適合無し除外)
文セット システム 意訳希望 直訳希望
    BLEU4 NIST BLEU4 NIST
A ITM(cross validation) 0.0456 2.0012 0.0698 1.6064
B ITM(open test) 0.0180 0.2461 0.0079 0.2458

10,表11より,訳出文の有った文のみを評価した 場合は,クロスバリデーションは参考1程度まで評価値が上昇することがわかっ た.このことより,機械評価では,実質ITMは参考1と同等程度の性能と判断で きる.

線形要素選択の問題,離散記号処理の実装については今後の課題となる.


next up previous contents
次へ: 直訳が望まれる場合 上へ: 追加調査 戻る: オープンテスト   目次
平成19年3月12日