機械評価

評価対象は，クローズドテスト，クロスバリデーションを行った250文に，追加してクローズドテスト，クロスバリデーションを500文行った．この合計750 文を文セットAとして扱う．また，オープンテストを行った400文(内訳：手動評価を行った200文+追加した200文)を文セットBとする．また，機械評価に用いるプログラムは「mteval-v10.pl」[3]とする．

評価を行う前に，文セットA，Bの対訳英文の意訳判断を行う．判断結果を表 7に示す．

**表 7:** 正解英文の意訳文・直訳文の件数
文セット	意訳文	直訳文	計
A	387	363	750
B	153	247	400

評価は，意訳が望まれる場合と直訳が望まれる場合の区別が無い場合と，区別が有る場合の2通りについて行った．

**表 8:** 意訳・直訳の区別無しにおける機械評価結果
文セット	システム	BLEU4	NIST
A	ITM(closed test)	0.4740	8.1735
	ITM(cross validation)	0.0254	0.4157
	参考1	0.0545	2.8059
	参考2	0.0716	3.3280
	参考3	0.0840	3.4611
B	ITM(open test)	0.0032	0.0112
	参考1	0.0629	2.9739
	参考2	0.0915	3.5477
	参考3	0.0845	3.5955

**表 9:** 意訳・直訳の区別有りにおける機械評価結果
文セット	システム	意訳希望		直訳希望
		BLEU4	NIST	BLEU4	NIST
A	ITM(closed test)	0.4500	7.2629	0.4882	7.9534
	ITM(cross validation)	0.0231	0.7775	0.0246	0.1489
	参考1	0.0417	2.3510	0.0667	3.0414
	参考2	0.0624	2.8482	0.0803	3.5190
	参考3	0.0840	2.9399	0.0961	3.6711
B	ITM(open test)	0.0055	0.0192	0.0019	0.0077
	参考1	0.0631	2.6908	0.0628	2.9549
	参考2	0.0845	3.1878	0.0953	3.5153
	参考3	0.0832	3.1925	0.0829	3.5797

機械評価の結果より，クロスバリデーションとオープンテストは一般の翻訳システムと比較すると評価値が低い．これは，パターンに適合しなかった文が多い，線形要素の選択が未熟，離散記号処理が未実装，といった点が原因として考えられる．パターンに適合しなかった文が多い点について検証するため，クロスバリデーションとオープンテストにおいて，この文を除外して機械評価を再度行った．結果を表10，表11に示す．

**表 10:** 意訳・直訳の区別無しにおいて，機械評価結果(適合無し除外)
文セット	システム	BLEU4	NIST
A	ITM(cross validation)	0.0607	2.0001
B	ITM(open test)	0.0121	0.2565

**表 11:** 意訳・直訳の区別有りにおける機械評価結果(適合無し除外)
文セット	システム	意訳希望		直訳希望
		BLEU4	NIST	BLEU4	NIST
A	ITM(cross validation)	0.0456	2.0012	0.0698	1.6064
B	ITM(open test)	0.0180	0.2461	0.0079	0.2458

表10，表11より，訳出文の有った文のみを評価した場合は，クロスバリデーションは参考1程度まで評価値が上昇することがわかった．このことより，機械評価では，実質ITMは参考1と同等程度の性能と判断できる．

線形要素選択の問題，離散記号処理の実装については今後の課題となる．