実験結果(小説)

小説を使用した推定実験の結果を表4.26に示す.



Table 4.26: SVM(小説)の実験結果
素性 正解率
55#55 0.8533
55#55+60#60 0.8566
55#55+63#63 0.8542
55#55+65#65 0.8570
58#58 0.8652
58#58+65#65 0.8643
59#59 0.8568
59#59+65#65 0.8579
ベースライン 0.8492

サポートベクトルマシン法を用いて新聞記事で段落分割を行った結果,段落分割の推定精度はベースラインの正解率が0.8492に対して,学習データが58#58の場合の正解率は0.8652で最も高い数値であった.

また表4.26の結果をもとに,「ベースラインは正解であるが提案手法は不正解であった分割箇所」の数と,「ベースラインは正解であるが提案手法は不正解であった分割箇所」の数と「ベースラインは不正解であるが提案手法は正解であった分割箇所」の数の合計数を用い,二項分布に基づく有意水準0.05の符号検定(片側検定)を行った.有意差検定で得たp値を表4.27に示す.


Table 4.27: ベースラインとの有意差検定(SVMの小説)
素性 p値
55#55 0.148940
55#55+60#60 0.023799
55#55+63#63 0.100837
55#55+65#65 0.017474
58#58 1.03597572#7281#81
58#58+65#65 0.000002
59#59 0.014153
59#59+65#65 0.007510
 

4.27より,55#55と55#55+63#63の正解率はベースラインに対して有意差がなく,他は有意差があった.

また,55#55の正解率と表4.26より55#55のみを除くそれぞれの正解率に対して,有意差を検定した.「55#55は正解であるが提案手法は不正解であった分割箇所」の数と,「55#55は正解であるが提案手法は不正解であった分割箇所」の数と「55#55は不正解であるが提案手法は正解であった分割箇所」の合計数を用い,二項分布に基づく有意水準0.05の符号検定(片側検定)を行った.有意差検定で得たp値を表4.28に示す.


Table: 76#76との有意差検定(SVMの小説)
素性 p値
55#55+60#60 0.110558
55#55+63#63 0.365504
55#55+65#65 0.062502
58#58 0.000131
58#58+65#65 0.000676
59#59 0.184170
59#59+65#65 0.128359
 

4.28より,58#58と58#58+65#65は55#55に対して有意差があった.新聞記事と違って他の段落情報の追加が55#55に対して有意差がないことから,小説に対してサポートベクトルマシン法を用いて段落分割をする際,文間箇所の直前直後2文の全単語を追加することは,推定精度の向上に役立っていることが分かる.

新聞記事に対しての段落分割で58#58のみの正解率はベースラインを下回っているが,新聞記事,小説に共通して,文間箇所の直前直後2文の全単語を追加することは,推定精度の向上に役立つと考えられる.