テストデータ10,000文を用いた実験

次へ: b) 日本語補完において主語補完したデータのみを用いた実験 上へ: 自動評価結果 戻る: 自動評価結果目次

テストデータ10,000文を用いた実験

ベースライン，日本語補完のみを用いて主語補完を行った実験，日本語補完とtrain補完を併用した実験，対訳補完のみを用いて主語補完を行った実験，対訳補完とtrain補完を併用した実験，train補完のみを用いて主語補完を行った実験の6つの実験における自動評価の結果を表33に示す．6つの実験は全て，テストデータとして10,000文，学習データとして100,000文用いる．

表: 10,000文での自動評価結果
	BLEU	METEOR	NIST
ベースライン	0.1146	0.3983	4.0832
日本語補完	0.1195	0.4068	4.2807
日本語補完+train補完	0.1187	0.4060	4.2645
対訳補完	0.1218	0.4153	4.3579
対訳補完+train補完	0.1209	0.4135	4.3266
train補完	0.1130	0.3997	4.1405

表33では，対訳補完は，ベースラインと比較し，BLEU値が0.72%向上している．これより，統計翻訳において，主語補完が有効であることが分かる．また，日本語補完では，ベースラインと比較し，BLEU値が0.49%向上している．これより，対訳補完には劣っているが，日本語補完も有効であることが分かる．また，日本語補完+train補完は，日本語補完と比較し，BLEU値が0.08%低下している．そして，対訳補完+train補完は，対訳補完と比較し，BLEU値が0.09%低下している．さらに，train補完は，ベースラインと比較し，BLEU値が0.16%低下している.これより，train補完は有効ではないと考えられる.

平成23年4月12日