次へ: 問題点 上へ: 人手評価と自動評価の違い 戻る: 人手評価と自動評価の違い目次

先行研究

松本ら[2]は，ルールベース翻訳とハイブリッド翻訳を用いて，人手評価と自動評価について考察した．結果，ルールベース翻訳とハイブリット翻訳の比較で，すべての人手評価と自動評価の結果に差が生じた．原因として，出力文の動詞の語訳を挙げている．動詞の語訳によって翻訳品質が下がり，人手評価が低下した．一方，自動評価は，動詞などの重要な単語でも，一定の割合で評価しているため，評価は低下しない．また人手評価は文全体の単語に着目し，評価する．一方，自動評価は，出力文と参照文を比較し，単語単位で均一に評価する．よって自動評価と人手評価に差が生じたと結論づけた．

表7.1に先行研究の自動評価の結果を示す．太字の数値は各自動評価でもっとも高い数値を表している．また表4.3に，先行研究の人手評価の結果を示す．表4.3の評価基準は表に示す．

=2pt

表: 自動評価結果
	RBMT	PSMT	HSMT	RBMT+PSMT
BLEU	0.1320	0.1341	0.1352	0.1798
NIST	4.8260	4.9239	4.9628	5.5426
METEOR	0.4724	0.4544	0.4551	0.5078
RIBES	0.7281	0.7114	0.7198	0.7540

=5pt

表: 評価基準
ルールベース翻訳◯	ルールベース翻訳の方が優れている
ハイブリッド翻訳◯	ハイブリッド翻訳が
	ルールベース翻訳より優れている
句に基づく統計翻訳◯	句に基づく統計翻訳が
	ルールベース翻訳より優れている
階層型統計翻訳◯	階層型統計翻訳が
	ルールベース翻訳より優れている
差なし	意味に差がない or
	共に意味が不明瞭である
同一出力	出力文が完全に同じ文である

=3pt

表: 人手評価結果
ルールベース翻訳◯	ハイブリッド翻訳◯	差なし	同一出力
23	5	59	13
ルールベース翻訳◯	句に基づく統計翻訳◯	差なし	同一出力
34	3	63	1
ルールベース翻訳◯	階層型統計翻訳◯	差なし	同一出力
30	3	66	1

表4.1の自動評価は，ハイブリッド翻訳の時，もっとも高い評価をしている．しかし，表4.3の人手評価は，ハイブリッド翻訳より，ルールベース翻訳が高い評価をしている．よって，先行研究で人手評価と自動評価の差が確認された．

次へ: 問題点 上へ: 人手評価と自動評価の違い 戻る: 人手評価と自動評価の違い目次

平成25年2月12日