小説に対して「★」を含むデータを使用したBERTの推定精度を表4.34に示す.小説に対して段落情報以外の直前,直後の1単語の素性(55#55,55#55+60#60,55#55+63#63)を使用したときの最大エントロピー法(MEM)とサポートベクトルマシン法(SVM)の推定精度を表4.35に示す.
MEM | SVM | |
55#55 | 0.8645 | 0.8533 |
55#55+60#60 | 0.8650 | 0.8566 |
55#55+63#63 | 0.8658 | 0.8542 |
55#55+65#65 | 0.8658 | 0.8570 |
58#58 | 0.8652 | 0.8652 |
58#58+65#65 | 0.8656 | 0.8643 |
59#59 | 0.8639 | 0.8568 |
59#59+65#65 | 0.8637 | 0.8579 |
ベースライン | 0.8492 |
3つの手法の推定精度を比較すると,明らかにBERTの推定精度が一番高いことが分かるが,新聞記事ほどの数値の差はない.サポートベクトルマシン法は新聞記事での正解率とは異なり,ベースラインを上回っているが,3つの手法の中では一番劣っている.
表4.34,表4.35の結果をもとに,有意差を検定した.「MEM(SVM)は正解であるがBERTは不正解であった分割箇所」の数と,「MEM(SVM)は正解であるがBERTは不正解であった分割箇所」の数と「MEM(SVM)は不正解であるがBERTは正解であった分割箇所」の数の合計数を用い,二項分布に基づく有意水準0.05の符号検定(片側検定)を行った.有意差検定から得たp値を表4.36に示す.BERTとSVMとの有意差検定から得たp値を表4.37に示す.BERTの正解率は高い順から並べた.
BERT | MEM | |||
正解率 | 55#55 | 55#55+60#60 | 55#55+63#63 | 55#55+65#65 |
0.8828 | 5.32424072#7283#83 | 1.67541272#72131#131 | 3.75106272#7282#82 | 3.75106272#7282#82 |
0.8815 | 0.000006 | 0.000009 | 0.000021 | 0.000021 |
0.8808 | 0.000002 | 0.000002 | 0.000008 | 0.000008 |
0.8802 | 0.000003 | 0.000004 | 0.000013 | 0.000013 |
0.8787 | 0.000116 | 0.000173 | 0.000389 | 0.000389 |
0.8783 | 0.000070 | 0.000102 | 0.000262 | 0.000262 |
0.8774 | 0.000331 | 0.000428 | 0.001008 | 0.001008 |
0.8748 | 0.003653 | 0.004869 | 0.009082 | 0.009082 |
0.8718 | 0.051519 | 0.062835 | 0.089551 | 0.089551 |
0.8658 | 0.394362 | 0.435951 | 0.521620 | 0.521620 |
BERT | SVM | |||
正解率 | 55#55 | 55#55+60#60 | 55#55+63#63 | 55#55+65#65 |
0.8828 | 1.14641772#72102#102 | 3.31044072#7298#98 | 9.58603472#72102#102 | 4.56880572#7298#98 |
0.8815 | 1.81455172#72100#100 | 9.25926872#72131#131 | 3.63455472#72100#100 | 2.15862372#7283#83 |
0.8808 | 1.58260472#72130#130 | 1.74516572#72131#131 | 7.63409872#72130#130 | 2.81015672#72131#131 |
0.8802 | 2.63870872#72130#130 | 2.26035272#72131#131 | 9.55959572#72130#130 | 6.09958272#72131#131 |
0.8787 | 8.87818172#72131#131 | 4.94708072#7282#82 | 2.15862372#7283#83 | 7.52544172#7282#82 |
0.8783 | 2.18496772#72131#131 | 1.85511572#7282#82 | 8.76998172#72131#131 | 2.88447172#7282#82 |
0.8774 | 4.45461372#7283#83 | 2.33621472#7281#81 | 1.51154972#7282#82 | 3.03430372#7281#81 |
0.8748 | 2.02966772#7281#81 | 0.000006 | 0.000001 | 0.000009 |
0.8718 | 0.000041 | 0.000532 | 0.000079 | 0.000669 |
0.8658 | 0.002621 | 0.018612 | 0.004389 | 0.022818 |
表4.36より,10回試行したBERTの正解率はMEMに対して,10回の中で下から2個の正解率では有意差はなかったが,残りの8個全て有意差があった.また,表4.37より,10回試行したBERTの正解率はSVMに対して全て有意差があった.
また表4.30より,MEMとSVMで同じ素性を用いた時の正解率の有意差を検定した.「SVMは正解であるがMEMは不正解であった分割箇所」の数と,「SVMは正解であるがMEMは不正解であった分割箇所」の数と「SVMは不正解であるがMEMは正解であった分割箇所」の数の合計数を用い,二項分布に基づく有意水準0.05の符号検定(片側検定)を行った.有意差検定から得たp値を表4.33に示す.
表4.33より,58#58,58#58+65#65は有意差がなかったが,その他の素性に関しては有意差があった.全て有意差があったわけではないが,表4.35より推定精度はMEMが上回っている.MEM,SVMの2手法で比較すると,段落分割を行う上で,MEMの手法の方が有用な手法だと考えられる.
新聞記事,小説ともに正解率はBERT>最大エントロピー法>サポートベクトルマシン法という結果となった.小説に対する推定精度は差があまりないが,新聞記事に対する推定精度の差は大きい.今回の実験で使用したBERTの損失関数はSoftmax Cross Entropy Lossを使用しており,Softmax Cross Entropy Lossより2クラス問題を扱うことに優れている損失関数にすることや入力のデータの整形で,更に精度が上がるのではないかと考えられる.またMEMの実験で素性をいくつか追加したが,いずれもBERTの推定精度を上回っていない.最大エントロピー法は素性分析など行うことに適しているが,単純な段落の推定精度ではBERTに勝ることはできないのではないかと考えられる.
また今回の実験では,BERTは段落情報を用いていないのでMEM,SVMとの段落情報の正解率なしで手法の比較を行った.BERTでの入力文に段落情報を表す記号などを付与することで,同じ条件下での実験を行えるのではないかと考えている.段落情報付与での性能の比較を今後したい.