評価対象は,クローズドテスト,クロスバリデーションを行った250文に,追加 してクローズドテスト,クロスバリデーションを500文行った.この合計750 文を文セットAとして扱う.また,オープンテストを行った400文(内訳:手動 評価を行った200文+追加した200文)を文セットBとする.また,機械評価に用 いるプログラムは「mteval-v10.pl」[3]とする.
評価を行う前に,文セットA,Bの対訳英文の意訳判断を行う.判断結果を表 7に示す.
評価は,意訳が望まれる場合と直訳が望まれる場合の区別が無い場合と,区別 が有る場合の2通りについて行った.
文セット | システム | BLEU4 | NIST |
A | ITM(closed test) | 0.4740 | 8.1735 |
ITM(cross validation) | 0.0254 | 0.4157 | |
参考1 | 0.0545 | 2.8059 | |
参考2 | 0.0716 | 3.3280 | |
参考3 | 0.0840 | 3.4611 | |
B | ITM(open test) | 0.0032 | 0.0112 |
参考1 | 0.0629 | 2.9739 | |
参考2 | 0.0915 | 3.5477 | |
参考3 | 0.0845 | 3.5955 |
文セット | システム | 意訳希望 | 直訳希望 | ||
BLEU4 | NIST | BLEU4 | NIST | ||
A | ITM(closed test) | 0.4500 | 7.2629 | 0.4882 | 7.9534 |
ITM(cross validation) | 0.0231 | 0.7775 | 0.0246 | 0.1489 | |
参考1 | 0.0417 | 2.3510 | 0.0667 | 3.0414 | |
参考2 | 0.0624 | 2.8482 | 0.0803 | 3.5190 | |
参考3 | 0.0840 | 2.9399 | 0.0961 | 3.6711 | |
B | ITM(open test) | 0.0055 | 0.0192 | 0.0019 | 0.0077 |
参考1 | 0.0631 | 2.6908 | 0.0628 | 2.9549 | |
参考2 | 0.0845 | 3.1878 | 0.0953 | 3.5153 | |
参考3 | 0.0832 | 3.1925 | 0.0829 | 3.5797 |
機械評価の結果より,クロスバリデーションとオープンテストは一般の翻訳シ ステムと比較すると評価値が低い.これは,パターンに適合しなかった文が多 い,線形要素の選択が未熟,離散記号処理が未実装,といった点が原因として 考えられる. パターンに適合しなかった文が多い点について検証するため,クロスバリデー ションとオープンテストにおいて,この文を除外して機械評価を再度行った. 結果を表10,表11に示す.
文セット | システム | BLEU4 | NIST |
A | ITM(cross validation) | 0.0607 | 2.0001 |
B | ITM(open test) | 0.0121 | 0.2565 |
文セット | システム | 意訳希望 | 直訳希望 | ||
BLEU4 | NIST | BLEU4 | NIST | ||
A | ITM(cross validation) | 0.0456 | 2.0012 | 0.0698 | 1.6064 |
B | ITM(open test) | 0.0180 | 0.2461 | 0.0079 | 0.2458 |
表10,表11より,訳出文の有った文のみを評価した 場合は,クロスバリデーションは参考1程度まで評価値が上昇することがわかっ た.このことより,機械評価では,実質ITMは参考1と同等程度の性能と判断で きる.
線形要素選択の問題,離散記号処理の実装については今後の課題となる.