小説の推定実験で使用した訓練データ,検証データ,テストデータの内訳を表4.16に示す.また新聞記事での実験と同様に,同じデータを用いて10回試行した.データ1,データ2ともに10回試行した平均値を結果を表4.17に示す.
BERTを使用して,小説に対して段落分割を行った結果,段落分割の推定精度はベースラインの正解率が0.8492に対して,「★」なしのデータ1の場合の正解率は0.8720,「★」ありのデータ2の場合の正解率は0.8778であった.また,データ1とデータ2の正解率を比較すると,差はほとんどないが0.0052だけデータ2の方が正解率が大きいことが分かる.この結果をもとに有意差を検定した.「ベースラインは正解であるが提案手法は不正解であった分割箇所」の数と,「ベースラインは正解であるが提案手法は不正解であった分割箇所」の数と「ベースラインは不正解であるが提案手法は正解であった分割箇所」の数の合計数を用い,二項分布に基づく有意水準0.05の符号検定(片側検定)を行った.表4.17の「★」なしのデータ1とベースラインとの有意差検定で得たp値を表4.18に示す.表4.17の「★」ありのデータ2とベースラインとの有意差検定で得たp値を表4.19に示す.表4.18,表4.19は,表4.17で10回試行したデータ1,データ2の10回分それぞれの結果と,ベースラインとの有意差検定を行った.
データ2 | p値 |
0.8770 | 1.53675972#7298#98 |
0.8766 | 1.53531672#7299#99 |
0.8759 | 1.99309372#72100#100 |
0.8753 | 3.20353872#7298#98 |
0.8716 | 9.07609072#7283#83 |
0.8710 | 2.56737272#72100#100 |
0.8703 | 5.68412972#7283#83 |
0.8680 | 6.89650772#7282#82 |
0.8680 | 0.000001 |
0.8660 | 0.000018 |
データ2 | p値 |
0.8828 | 1.07442472#72101#101 |
0.8815 | 1.98857672#72102#102 |
0.8808 | 3.20339072#72103#103 |
0.8802 | 1.96316772#72103#103 |
0.8787 | 9.65668572#72104#104 |
0.8783 | 8.60268172#72102#102 |
0.8774 | 1.87669172#7298#98 |
0.8748 | 3.16765172#72100#100 |
0.8718 | 7.12621572#7281#81 |
0.8658 | 5.55571472#72105#105 |
表4.18,表4.19より,小説に対してBERTでの段落分割はデータ1,データ2とも全てベースラインの正解率と有意差があった. また,データ1とデータ2の正解率に対して有意差を検定した.「データ1は正解であるがデータ2は不正解であった分割箇所」の数と,「データ1は正解であるがデータ2は不正解であった分割箇所」の数と「データ1は不正解であるがデータ2は正解であった分割箇所」の数の合計数を用い,二項分布に基づく有意水準0.05の符号検定(片側検定)を行った.データ2の10個の値の中上位5個での有意差検定で得たp値を表4.20に、下位5個での有意差検定で得たp値を表4.21に示す.データ2がデータ1の数値を上回っていない箇所には「72#72」と入力している.
データ2の上位5番目 | |||||
データ1 | 0.8828 | 0.8815 | 0.8808 | 0.8802 | 0.8787 |
0.8770 | 0.021317 | 0.076998 | 0.092091 | 0.122442 | 0.303943 |
0.8766 | 0.008618 | 0.069364 | 0.071227 | 0.110506 | 0.265361 |
0.8759 | 0.011754 | 0.039902 | 0.049916 | 0.073598 | 0.195104 |
0.8753 | 0.003776 | 0.026255 | 0.025293 | 0.039396 | 0.127706 |
0.8716 | 0.000107 | 0.001225 | 0.001407 | 0.002269 | 0.011881 |
0.8710 | 0.000010 | 0.001007 | 0.000188 | 0.000968 | 0.007516 |
0.8703 | 0.000003 | 0.000246 | 0.000092 | 0.000260 | 0.003749 |
0.8680 | 4.73350672#7282#82 | 0.000037 | 0.000002 | 0.000014 | 0.000322 |
0.8680 | 0.000001 | 0.000028 | 0.000016 | 0.000035 | 0.000535 |
0.8660 | 2.43058872#7282#82 | 0.000001 | 1.34026272#7281#81 | 0.000001 | 0.000019 |
データ2の下位5番目 | |||||
データ1 | 0.8783 | 0.8774 | 0.8748 | 0.8718 | 0.8658 |
0.8770 | 0.346381 | 0.468704 | 72#72 | 72#72 | 72#72 |
0.8766 | 0.300984 | 0.411083 | 72#72 | 72#72 | 72#72 |
0.8759 | 0.223589 | 0.320281 | 72#72 | 72#72 | 72#72 |
0.8753 | 0.148967 | 0.243783 | 72#72 | 72#72 | 72#72 |
0.8716 | 0.012742 | 0.027156 | 0.165266 | 0.500000 | 72#72 |
0.8710 | 0.008218 | 0.015651 | 0.123666 | 0.431264 | 72#72 |
0.8703 | 0.004327 | 0.008263 | 0.089191 | 0.363006 | 72#72 |
0.8680 | 0.000267 | 0.001026 | 0.020797 | 0.166361 | 72#72 |
0.8680 | 0.000737 | 0.000869 | 0.018617 | 0.146791 | 72#72 |
0.8660 | 0.000017 | 0.000071 | 0.003369 | 0.053004 | 72#72 |
表4.20,表4.21より82個間の有意差検定を行い,そのうち54個間で有意差があった.新聞記事での有意差検定より有意差のある個数が多いが,全体の100個に対して考えると有意差はないと思われる.しかし,データ2は82個がデータ1を上回っており,新聞記事と同様に小説に対して,BERTで段落分割の推定実験を行う際,「★」ありのデータ2を用いて実験を行うのが良いのではないかと考えられる.