次へ: 10000文での自動評価結果
上へ: 重文・複文テストデータの自動評価結果
戻る: パターンに照合した文のみの評価
目次
重文・複文において,パターン翻訳を用いて翻訳されたAランク408文と,ベースラインシステムで翻訳された408文のBLEU値の比較結果を表8.2に示す.
表:
Aランクの翻訳文とベースラインの比較
|
BLEU |
NIST |
提案手法 |
0.5662 |
7.7735 |
ベースライン |
0.5348 |
7.4597 |
パターン翻訳を用いて翻訳されたBランク31文と,ベースラインシステムで翻訳された31文のBLEU値とNIST値の比較結果を表8.3に示す.
表:
Bランクの翻訳文とベースラインの比較
|
BLEU |
NIST |
Bランク |
0.4717 |
4.8247 |
ベースライン |
0.3573 |
3.9476 |
パターン翻訳を用いて翻訳されたCランク16文と,ベースラインシステムで翻訳された16文のBLEU値とNIST値の比較結果を表8.4に示す.
表:
Cランクの翻訳文とベースラインの比較
|
BLEU |
NIST |
Cランク |
0.3517 |
3.6805 |
ベースライン |
0.2115 |
2.8721 |
パターン翻訳を用いて翻訳されたDランク368文と,ベースラインシステムで翻訳された368文のBLEU値とNIST値の比較結果を表8.5に示す.
表:
Dランクの翻訳文とベースラインの比較
|
BLEU |
NIST |
Dランク |
0.0710 |
2.3499 |
ベースライン |
0.1451 |
3.0121 |
上記の結果から,Aランクはベースラインと比較してBLEU値で3.1%向上している.また,BランクはBLEU値で11.4%,CランクはBLEU値で14.02%の向上が認められた.Dランクはベースラインと比較してBLUE値の低下が認められたが,重文・複文におけるパターン翻訳はA〜Cランクの翻訳文に関して高い翻訳精度が得られた.
eki takashi
平成24年3月13日