実験結果(新聞記事)

新聞記事の推定実験で使用した訓練データ,検証データ,テストデータの内訳を表4.10に示す.BERTでの学習の際,入力した文章は分散表現に変換されるため,結果が多少変化する.そこで本実験は,同じデータを用いて10回試行した.データ1,データ2ともに10回試行した平均値を表4.11に示す.





Table 4.10: 実験データ(新聞記事)の内訳
  訓練データ 検証データ テストデータ
新聞記事 7,500 2,500 10,000





Table 4.11: BERT(新聞記事)の実験結果
  正解率
データ1 0.7547
データ2 0.7564
ベースライン 0.6743

BERTを使用して,新聞記事に対して段落分割を行った結果,段落分割の推定精度はベースラインの正解率が0.6743に対して,「★」なしのデータ1の場合の正解率は0.7547,「★」ありのデータ2の場合の正解率は0.7564であった.また,データ1とデータ2の正解率を比較すると,差はほとんどないが0.0017だけデータ2の方が正解率が大きいことが分かる.この結果をもとに有意差を検定した.「ベースラインは正解であるが提案手法は不正解であった分割箇所」の数と,「ベースラインは正解であるが提案手法は不正解であった分割箇所」の数と「ベースラインは不正解であるが提案手法は正解であった分割箇所」の数の合計数を用い,二項分布に基づく有意水準0.05の符号検定(片側検定)を行った.表4.11の「★」なしのデータ1とベースラインとの有意差検定で得たp値を表4.12に示す.表4.11の「★」ありのデータ2とベースラインとの有意差検定で得たp値を表4.13に示す.表4.12,表4.13は,表4.11で10回試行したデータ1,データ2の10回分それぞれの結果と,ベースラインとの有意差検定を行った.





Table 4.12: BERT(データ1)とベースラインとの有意差(新聞記事)
データ1 p値
0.7599 1.77408772#7284#84
0.7590 4.19657172#7285#85
0.7579 2.86738672#7286#86
0.7555 5.93398872#7287#87
0.7544 1.88849372#7288#88
0.7515 5.52388672#7289#89
0.7507 1.51921972#7290#90
0.7505 1.24406272#7288#88
0.7524 7.00447472#7291#91
0.7556 1.18459372#7292#92





Table 4.13: BERT(データ2)とベースラインとの有意差(新聞記事)
データ2 p値
0.7600 1.72353672#7293#93
0.7597 1.33462172#7284#84
0.7592 7.46258372#7294#94
0.7581 1.27390972#7295#95
0.7569 1.39763172#7287#87
0.7561 7.17022072#7279#79
0.7547 5.73010572#7296#96
0.7546 6.59218472#7286#86
0.7527 1.22878372#7292#92
0.7520 1.59356472#7297#97

4.12,表4.13より,新聞記事に対してBERTでの段落分割はデータ1,データ2とも全てベースラインの正解率と有意差があった.

また,データ1とデータ2の正解率に対して有意差を検定した.「データ1は正解であるがデータ2は不正解であった分割箇所」の数と,「データ1は正解であるがデータ2は不正解であった分割箇所」の数と「データ1は不正解であるがデータ2は正解であった分割箇所」の数の合計数を用い,二項分布に基づく有意水準0.05の符号検定(片側検定)を行った.データ2の10個の値の中上位5個での有意差検定で得たp値を表4.14に、下位5個での有意差検定で得たp値を表4.15に示す.データ2がデータ1の数値を上回っていない箇所には「72#72」と入力している.





Table 4.14: BERT(データ2の上位5番目)とデータ1の有意差(新聞記事)
  データ2の上位5番目
データ1 0.7600 0.7597 0.7592 0.7581 0.7569
0.7599 0.000598 72#72 72#72 72#72 72#72
0.7590 0.386196 0.428322 0.488438 72#72 72#72
0.7579 0.269232 0.305587 0.363037 0.487952 72#72
0.7556 0.099006 0.120407 0.157164 0.234149 0.357320
0.7555 0.083577 0.111694 0.140272 0.224256 0.346353
0.7544 0.002537 0.004802 0.007115 0.018442 0.032794
0.7524 0.011405 0.014984 0.021091 0.043649 0.078310
0.7515 0.005587 0.007688 0.010796 0.025924 0.054838
0.7507 0.042346 0.059683 0.087594 0.139622 0.229352
0.7505 0.001810 0.002755 0.003404 0.011468 0.027367





Table 4.15: BERT(データ2の下位5番目)とデータ1の有意差(新聞記事)
  データ2の下位5番目
データ1 0.7561 0.7547 0.7546 0.7527 0.7520
0.7599 72#72 72#72 72#72 72#72 72#72
0.7590 72#72 72#72 72#72 72#72 72#72
0.7579 72#72 72#72 72#72 72#72 72#72
0.7556 0.452748 72#72 72#72 72#72 72#72
0.7555 0.442091 72#72 72#72 72#72 72#72
0.7544 0.054838 0.129716 0.128826 72#72 72#72
0.7524 0.136546 0.254051 0.178072 0.371315 0.873844
0.7515 0.091097 0.169825 0.178072 0.371315 0.873844
0.7507 0.311158 0.477180 0.487886 0.701020 0.766241
0.7505 0.049517 0.105444 0.103732 0.263131 0.344104

4.14,表4.15より68個間の有意差検定を行い,そのうち21個間で有意差があった.しかし,全体で見ると有意差はないと思われるが,データ2は100個中68個データ1を上回っている.新聞記事に対して,BERTで段落分割の推定実験を行う際,「★」ありのデータ2を用いて実験を行うのが良いのではないかと考えられる.