next up previous contents
次へ: モノリンガルコーパスの量 上へ: 考察 戻る: 抽出の効果   目次


抽出量の影響

誤りのある文の割合が,学習に及ぼす影響を調査するため,抽出の際の尤度を調整して実験を行った.表21に抽出文対数を10,000文対,20,000文対,40,000文対,80,000文対,100,000文対(全抽出)とした場合の自動評価の結果を示す.抽出文対数が多いほど誤りのある文の割合が高く,抽出文対数が少ないほど誤りのある文の割合が低い.ただし,本節の実験において,デコーダのパラメータによる評価結果のばらつきをなくすため,パラメータチューニングは行っていない.なお,``ベースライン"においても,抽出文対の付与を行わず,パラメータチューニングも行っていない.


表: 抽出量の影響
抽出文対数 BLEU
NIST
METEOR
ベースライン 0.0968
3.621
0.4407
10,000 0.0975
3.581
0.4405
20,000 0.0952
3.503
0.4362
40,000 0.0917
3.331
0.4276
80,000 0.0826
2.994
0.4122
100,000 0.0816
2.881
0.4062

結果より,学習データに誤りのある文がより多く含まれるほど,評価が下がることが確認できる. また,この結果からも,尤度を用いた抽出の有効性が示されたといえる.


next up previous contents
次へ: モノリンガルコーパスの量 上へ: 考察 戻る: 抽出の効果   目次
平成23年3月3日