語の出現頻度による精度調査

大量の対訳文から対訳句を抽出する際,対訳文中で出現頻度が低い語(低頻度語)は,高い語に比べ,正確な対訳句を得ることが難しい. そこで,対訳文中での出現頻度を基に,各実験による対訳句の抽出精度を再考する. 具体的には,出現頻度が1回と2回以上の対訳句を分け,それぞれ評価する. 表11.4に各実験の再考結果を示す 11.1. .

表: 対訳句の抽出結果
出現頻度1回
20#20 21#21 3#3 抽出数 異なり数
従来手法 37 26 37 13,464,695 3,676,582
提案手法 96 4 0 21,290 13,923
追加実験 1回目 100 0 0 11,234,992 85,209
追加実験 2回目 67 32 0 451,199,887 157,039
出現頻度2回以上
20#20 21#21 3#3 抽出数 異なり数
従来手法 43 15 42 13,837,276 1,381,886
提案手法 91 8 1 4,953 3,617
追加実験 1回目 89 7 4 336,378 5,991
追加実験 2回目 91 6 3 5,755,720 6,486