next up previous contents
次へ: 文長差を用いた翻訳文の選択 上へ: 分析 戻る: 先行研究との比較   目次

パターン翻訳における翻訳文のランク付け

江木らは,パターン翻訳出力文に対してtri-gramスコアを用いた絞り込みを行うことで,精度の高い文を選出している[19].したがって,本研究においても同様の手法を用いてパターン翻訳出力文のランク付けを行い,各ランクを用いて実験を行った場合の結果を調査する.ランク付けは以下のように行う.

まず,対訳データの英語側におけるtri-gramデータを用いて,パターン翻訳出力文のtri-gramスコアを計算する. スコアの計算において,該当するtri-gramが存在しない場合はペナルティ$ -1000$ をスコアに付与する. そして,tri-gramスコアに閾値を設定し,出力文をスコア別にランク付けする. 以下に本研究で用いる各ランクの定義を示す.

各ランクを用いた実験における自動評価結果を表4.20と表4.21に示す.表において,追加文数は各手法において既存の対訳データに追加した文数である.Aランク〜Dランクは各ランクを用いた結果を表している.そして,A+Bランクなどはそれぞれのランクで得られた出力文を足し合わせ,既存の対訳データに追加した結果である.


(a) 単文
表: 自動評価結果(チューニングなし)
翻訳手法 追加文数 BLEU METEOR RIBES
ベースライン 0 0.0936 0.4395 0.6689
Aランク 1,464 0.0951 0.4394 0.6675
Bランク 1,868 0.0935 0.4392 0.6688
Cランク 2,829 0.0925 0.4390 0.6668
Dランク 49,138 0.0962 0.4466 0.6731
A+Bランク 3,332 0.0935 0.4397 0.6720
A+B+Cランク 6,161 0.0949 0.4403 0.6694
提案手法 55,299 0.0980 0.4482 0.6731


(b) 重文複文
翻訳手法 追加文数 BLEU METEOR RIBES
ベースライン 0 0.0715 0.3825 0.6269
Aランク 884 0.0728 0.3838 0.6228
Bランク 265 0.0717 0.3820 0.6240
Cランク 77 0.0708 0.3822 0.6232
Dランク 693 0.0712 0.3824 0.6242
A+Bランク 1,152 0.0719 0.3829 0.6240
A+B+Cランク 1,229 0.0715 0.3825 0.6229
提案手法 1,922 0.0718 0.3822 0.6223


(a) 単文
表: 自動評価結果(チューニングあり)
翻訳手法 追加文数 BLEU METEOR RIBES
ベースライン 0 0.1187 0.4805 0.6963
Aランク 1,464 0.1190 0.4799 0.6938
Bランク 1,868 0.1162 0.4812 0.6965
Cランク 2,829 0.1156 0.4812 0.6939
Dランク 49,138 0.1170 0.4821 0.6925
A+Bランク 3,332 0.1178 0.4815 0.6975
A+B+Cランク 6,161 0.1182 0.4775 0.6937
提案手法 5,5299 0.1166 0.4841 0.6930


(b) 重文複文
翻訳手法 追加文数 BLEU METEOR RIBES
ベースライン 0 0.0925 0.4205 0.6457
Aランク 884 0.0912 0.4246 0.6478
Bランク 265 0.0926 0.4221 0.6445
Cランク 77 0.0941 0.4273 0.6463
Dランク 693 0.0930 0.4243 0.6460
A+Bランク 1,152 0.0896 0.4210 0.6350
A+B+Cランク 1,229 0.0942 0.4262 0.6454
提案手法 1,922 0.0951 0.4303 0.6509

結果より,データセットによってランク付けの影響が異なる. より精密な分析を行うため,今後は各ランクの文数を同数にして,再度実験を行う必要があると思われる.


next up previous contents
次へ: 文長差を用いた翻訳文の選択 上へ: 分析 戻る: 先行研究との比較   目次
平成25年2月12日