まず,対訳データの英語側におけるtri-gramデータを用いて,パターン翻訳出力文のtri-gramスコアを計算する. スコアの計算において,該当するtri-gramが存在しない場合はペナルティ をスコアに付与する. そして,tri-gramスコアに閾値を設定し,出力文をスコア別にランク付けする. 以下に本研究で用いる各ランクの定義を示す.
各ランクを用いた実験における自動評価結果を表4.20と表4.21に示す.表において,追加文数は各手法において既存の対訳データに追加した文数である.Aランク〜Dランクは各ランクを用いた結果を表している.そして,A+Bランクなどはそれぞれのランクで得られた出力文を足し合わせ,既存の対訳データに追加した結果である.
翻訳手法 | 追加文数 | BLEU | METEOR | RIBES |
ベースライン | 0 | 0.0936 | 0.4395 | 0.6689 |
Aランク | 1,464 | 0.0951 | 0.4394 | 0.6675 |
Bランク | 1,868 | 0.0935 | 0.4392 | 0.6688 |
Cランク | 2,829 | 0.0925 | 0.4390 | 0.6668 |
Dランク | 49,138 | 0.0962 | 0.4466 | 0.6731 |
A+Bランク | 3,332 | 0.0935 | 0.4397 | 0.6720 |
A+B+Cランク | 6,161 | 0.0949 | 0.4403 | 0.6694 |
提案手法 | 55,299 | 0.0980 | 0.4482 | 0.6731 |
翻訳手法 | 追加文数 | BLEU | METEOR | RIBES |
ベースライン | 0 | 0.0715 | 0.3825 | 0.6269 |
Aランク | 884 | 0.0728 | 0.3838 | 0.6228 |
Bランク | 265 | 0.0717 | 0.3820 | 0.6240 |
Cランク | 77 | 0.0708 | 0.3822 | 0.6232 |
Dランク | 693 | 0.0712 | 0.3824 | 0.6242 |
A+Bランク | 1,152 | 0.0719 | 0.3829 | 0.6240 |
A+B+Cランク | 1,229 | 0.0715 | 0.3825 | 0.6229 |
提案手法 | 1,922 | 0.0718 | 0.3822 | 0.6223 |
翻訳手法 | 追加文数 | BLEU | METEOR | RIBES |
ベースライン | 0 | 0.1187 | 0.4805 | 0.6963 |
Aランク | 1,464 | 0.1190 | 0.4799 | 0.6938 |
Bランク | 1,868 | 0.1162 | 0.4812 | 0.6965 |
Cランク | 2,829 | 0.1156 | 0.4812 | 0.6939 |
Dランク | 49,138 | 0.1170 | 0.4821 | 0.6925 |
A+Bランク | 3,332 | 0.1178 | 0.4815 | 0.6975 |
A+B+Cランク | 6,161 | 0.1182 | 0.4775 | 0.6937 |
提案手法 | 5,5299 | 0.1166 | 0.4841 | 0.6930 |
翻訳手法 | 追加文数 | BLEU | METEOR | RIBES |
ベースライン | 0 | 0.0925 | 0.4205 | 0.6457 |
Aランク | 884 | 0.0912 | 0.4246 | 0.6478 |
Bランク | 265 | 0.0926 | 0.4221 | 0.6445 |
Cランク | 77 | 0.0941 | 0.4273 | 0.6463 |
Dランク | 693 | 0.0930 | 0.4243 | 0.6460 |
A+Bランク | 1,152 | 0.0896 | 0.4210 | 0.6350 |
A+B+Cランク | 1,229 | 0.0942 | 0.4262 | 0.6454 |
提案手法 | 1,922 | 0.0951 | 0.4303 | 0.6509 |
結果より,データセットによってランク付けの影響が異なる. より精密な分析を行うため,今後は各ランクの文数を同数にして,再度実験を行う必要があると思われる.