新聞記事の推定実験で使用した訓練データ,検証データ,テストデータの内訳を表4.10に示す.BERTでの学習の際,入力した文章は分散表現に変換されるため,結果が多少変化する.そこで本実験は,同じデータを用いて10回試行した.データ1,データ2ともに10回試行した平均値を表4.11に示す.
BERTを使用して,新聞記事に対して段落分割を行った結果,段落分割の推定精度はベースラインの正解率が0.6743に対して,「★」なしのデータ1の場合の正解率は0.7547,「★」ありのデータ2の場合の正解率は0.7564であった.また,データ1とデータ2の正解率を比較すると,差はほとんどないが0.0017だけデータ2の方が正解率が大きいことが分かる.この結果をもとに有意差を検定した.「ベースラインは正解であるが提案手法は不正解であった分割箇所」の数と,「ベースラインは正解であるが提案手法は不正解であった分割箇所」の数と「ベースラインは不正解であるが提案手法は正解であった分割箇所」の数の合計数を用い,二項分布に基づく有意水準0.05の符号検定(片側検定)を行った.表4.11の「★」なしのデータ1とベースラインとの有意差検定で得たp値を表4.12に示す.表4.11の「★」ありのデータ2とベースラインとの有意差検定で得たp値を表4.13に示す.表4.12,表4.13は,表4.11で10回試行したデータ1,データ2の10回分それぞれの結果と,ベースラインとの有意差検定を行った.
データ1 | p値 |
0.7599 | 1.77408772#7284#84 |
0.7590 | 4.19657172#7285#85 |
0.7579 | 2.86738672#7286#86 |
0.7555 | 5.93398872#7287#87 |
0.7544 | 1.88849372#7288#88 |
0.7515 | 5.52388672#7289#89 |
0.7507 | 1.51921972#7290#90 |
0.7505 | 1.24406272#7288#88 |
0.7524 | 7.00447472#7291#91 |
0.7556 | 1.18459372#7292#92 |
データ2 | p値 |
0.7600 | 1.72353672#7293#93 |
0.7597 | 1.33462172#7284#84 |
0.7592 | 7.46258372#7294#94 |
0.7581 | 1.27390972#7295#95 |
0.7569 | 1.39763172#7287#87 |
0.7561 | 7.17022072#7279#79 |
0.7547 | 5.73010572#7296#96 |
0.7546 | 6.59218472#7286#86 |
0.7527 | 1.22878372#7292#92 |
0.7520 | 1.59356472#7297#97 |
表4.12,表4.13より,新聞記事に対してBERTでの段落分割はデータ1,データ2とも全てベースラインの正解率と有意差があった.
また,データ1とデータ2の正解率に対して有意差を検定した.「データ1は正解であるがデータ2は不正解であった分割箇所」の数と,「データ1は正解であるがデータ2は不正解であった分割箇所」の数と「データ1は不正解であるがデータ2は正解であった分割箇所」の数の合計数を用い,二項分布に基づく有意水準0.05の符号検定(片側検定)を行った.データ2の10個の値の中上位5個での有意差検定で得たp値を表4.14に、下位5個での有意差検定で得たp値を表4.15に示す.データ2がデータ1の数値を上回っていない箇所には「72#72」と入力している.
データ2の上位5番目 | |||||
データ1 | 0.7600 | 0.7597 | 0.7592 | 0.7581 | 0.7569 |
0.7599 | 0.000598 | 72#72 | 72#72 | 72#72 | 72#72 |
0.7590 | 0.386196 | 0.428322 | 0.488438 | 72#72 | 72#72 |
0.7579 | 0.269232 | 0.305587 | 0.363037 | 0.487952 | 72#72 |
0.7556 | 0.099006 | 0.120407 | 0.157164 | 0.234149 | 0.357320 |
0.7555 | 0.083577 | 0.111694 | 0.140272 | 0.224256 | 0.346353 |
0.7544 | 0.002537 | 0.004802 | 0.007115 | 0.018442 | 0.032794 |
0.7524 | 0.011405 | 0.014984 | 0.021091 | 0.043649 | 0.078310 |
0.7515 | 0.005587 | 0.007688 | 0.010796 | 0.025924 | 0.054838 |
0.7507 | 0.042346 | 0.059683 | 0.087594 | 0.139622 | 0.229352 |
0.7505 | 0.001810 | 0.002755 | 0.003404 | 0.011468 | 0.027367 |
データ2の下位5番目 | |||||
データ1 | 0.7561 | 0.7547 | 0.7546 | 0.7527 | 0.7520 |
0.7599 | 72#72 | 72#72 | 72#72 | 72#72 | 72#72 |
0.7590 | 72#72 | 72#72 | 72#72 | 72#72 | 72#72 |
0.7579 | 72#72 | 72#72 | 72#72 | 72#72 | 72#72 |
0.7556 | 0.452748 | 72#72 | 72#72 | 72#72 | 72#72 |
0.7555 | 0.442091 | 72#72 | 72#72 | 72#72 | 72#72 |
0.7544 | 0.054838 | 0.129716 | 0.128826 | 72#72 | 72#72 |
0.7524 | 0.136546 | 0.254051 | 0.178072 | 0.371315 | 0.873844 |
0.7515 | 0.091097 | 0.169825 | 0.178072 | 0.371315 | 0.873844 |
0.7507 | 0.311158 | 0.477180 | 0.487886 | 0.701020 | 0.766241 |
0.7505 | 0.049517 | 0.105444 | 0.103732 | 0.263131 | 0.344104 |
表4.14,表4.15より68個間の有意差検定を行い,そのうち21個間で有意差があった.しかし,全体で見ると有意差はないと思われるが,データ2は100個中68個データ1を上回っている.新聞記事に対して,BERTで段落分割の推定実験を行う際,「★」ありのデータ2を用いて実験を行うのが良いのではないかと考えられる.