実験結果(小説)

小説の推定実験で使用した訓練データ,検証データ,テストデータの内訳を表4.16に示す.また新聞記事での実験と同様に,同じデータを用いて10回試行した.データ1,データ2ともに10回試行した平均値を結果を表4.17に示す.





Table 4.16: 実験データ(小説)の内訳
  訓練データ 検証データ テストデータ
小説 7,000 2,307 4,643





Table 4.17: BERT(小説)の実験結果
  正解率
データ1 0.8720
データ2 0.8772
ベースライン 0.8492

BERTを使用して,小説に対して段落分割を行った結果,段落分割の推定精度はベースラインの正解率が0.8492に対して,「★」なしのデータ1の場合の正解率は0.8720,「★」ありのデータ2の場合の正解率は0.8778であった.また,データ1とデータ2の正解率を比較すると,差はほとんどないが0.0052だけデータ2の方が正解率が大きいことが分かる.この結果をもとに有意差を検定した.「ベースラインは正解であるが提案手法は不正解であった分割箇所」の数と,「ベースラインは正解であるが提案手法は不正解であった分割箇所」の数と「ベースラインは不正解であるが提案手法は正解であった分割箇所」の数の合計数を用い,二項分布に基づく有意水準0.05の符号検定(片側検定)を行った.表4.17の「★」なしのデータ1とベースラインとの有意差検定で得たp値を表4.18に示す.表4.17の「★」ありのデータ2とベースラインとの有意差検定で得たp値を表4.19に示す.表4.18,表4.19は,表4.17で10回試行したデータ1,データ2の10回分それぞれの結果と,ベースラインとの有意差検定を行った.





Table 4.18: BERT(データ1)とベースラインとの有意差(小説)
データ2 p値
0.8770 1.53675972#7298#98
0.8766 1.53531672#7299#99
0.8759 1.99309372#72100#100
0.8753 3.20353872#7298#98
0.8716 9.07609072#7283#83
0.8710 2.56737272#72100#100
0.8703 5.68412972#7283#83
0.8680 6.89650772#7282#82
0.8680 0.000001
0.8660 0.000018





Table 4.19: BERT(データ2)とベースラインとの有意差(小説)
データ2 p値
0.8828 1.07442472#72101#101
0.8815 1.98857672#72102#102
0.8808 3.20339072#72103#103
0.8802 1.96316772#72103#103
0.8787 9.65668572#72104#104
0.8783 8.60268172#72102#102
0.8774 1.87669172#7298#98
0.8748 3.16765172#72100#100
0.8718 7.12621572#7281#81
0.8658 5.55571472#72105#105

4.18,表4.19より,小説に対してBERTでの段落分割はデータ1,データ2とも全てベースラインの正解率と有意差があった. また,データ1とデータ2の正解率に対して有意差を検定した.「データ1は正解であるがデータ2は不正解であった分割箇所」の数と,「データ1は正解であるがデータ2は不正解であった分割箇所」の数と「データ1は不正解であるがデータ2は正解であった分割箇所」の数の合計数を用い,二項分布に基づく有意水準0.05の符号検定(片側検定)を行った.データ2の10個の値の中上位5個での有意差検定で得たp値を表4.20に、下位5個での有意差検定で得たp値を表4.21に示す.データ2がデータ1の数値を上回っていない箇所には「72#72」と入力している.





Table 4.20: BERT(データ2の上位5番目)とデータ1との有意差(小説)
  データ2の上位5番目
データ1 0.8828 0.8815 0.8808 0.8802 0.8787
0.8770 0.021317 0.076998 0.092091 0.122442 0.303943
0.8766 0.008618 0.069364 0.071227 0.110506 0.265361
0.8759 0.011754 0.039902 0.049916 0.073598 0.195104
0.8753 0.003776 0.026255 0.025293 0.039396 0.127706
0.8716 0.000107 0.001225 0.001407 0.002269 0.011881
0.8710 0.000010 0.001007 0.000188 0.000968 0.007516
0.8703 0.000003 0.000246 0.000092 0.000260 0.003749
0.8680 4.73350672#7282#82 0.000037 0.000002 0.000014 0.000322
0.8680 0.000001 0.000028 0.000016 0.000035 0.000535
0.8660 2.43058872#7282#82 0.000001 1.34026272#7281#81 0.000001 0.000019





Table 4.21: BERT(データ2の上位5番目)とデータ1との有意差(小説)
  データ2の下位5番目
データ1 0.8783 0.8774 0.8748 0.8718 0.8658
0.8770 0.346381 0.468704 72#72 72#72 72#72
0.8766 0.300984 0.411083 72#72 72#72 72#72
0.8759 0.223589 0.320281 72#72 72#72 72#72
0.8753 0.148967 0.243783 72#72 72#72 72#72
0.8716 0.012742 0.027156 0.165266 0.500000 72#72
0.8710 0.008218 0.015651 0.123666 0.431264 72#72
0.8703 0.004327 0.008263 0.089191 0.363006 72#72
0.8680 0.000267 0.001026 0.020797 0.166361 72#72
0.8680 0.000737 0.000869 0.018617 0.146791 72#72
0.8660 0.000017 0.000071 0.003369 0.053004 72#72

4.20,表4.21より82個間の有意差検定を行い,そのうち54個間で有意差があった.新聞記事での有意差検定より有意差のある個数が多いが,全体の100個に対して考えると有意差はないと思われる.しかし,データ2は82個がデータ1を上回っており,新聞記事と同様に小説に対して,BERTで段落分割の推定実験を行う際,「★」ありのデータ2を用いて実験を行うのが良いのではないかと考えられる.