表7.1に先行研究の自動評価の結果を示す.太字の数値は各自動評価でもっとも高い数値を表している.また表4.3に,先行研究の人手評価の結果を示す.表4.3の評価基準は表に示す.
RBMT | PSMT | HSMT | RBMT+PSMT | |
BLEU | 0.1320 | 0.1341 | 0.1352 | 0.1798 |
NIST | 4.8260 | 4.9239 | 4.9628 | 5.5426 |
METEOR | 0.4724 | 0.4544 | 0.4551 | 0.5078 |
RIBES | 0.7281 | 0.7114 | 0.7198 | 0.7540 |
ルールベース翻訳◯ | ルールベース翻訳の方が優れている |
---|---|
ハイブリッド翻訳◯ | ハイブリッド翻訳が |
ルールベース翻訳より優れている | |
句に基づく統計翻訳◯ | 句に基づく統計翻訳が |
ルールベース翻訳より優れている | |
階層型統計翻訳◯ | 階層型統計翻訳が |
ルールベース翻訳より優れている | |
差なし | 意味に差がない or |
共に意味が不明瞭である | |
同一出力 | 出力文が完全に同じ文である |
ルールベース翻訳◯ | ハイブリッド翻訳◯ | 差なし | 同一出力 |
23 | 5 | 59 | 13 |
ルールベース翻訳◯ | 句に基づく統計翻訳◯ | 差なし | 同一出力 |
34 | 3 | 63 | 1 |
ルールベース翻訳◯ | 階層型統計翻訳◯ | 差なし | 同一出力 |
30 | 3 | 66 | 1 |
表4.1の自動評価は,ハイブリッド翻訳の時,もっとも高い評価をしている. しかし,表4.3の人手評価は,ハイブリッド翻訳より,ルールベース翻訳が高い評価をしている. よって,先行研究で人手評価と自動評価の差が確認された.