小説の素性

小説を用いたBERTでの実験の素性分析を行った.素性分析から得た分割に関する単語とその数値の上位30個を表5.14,非分割に関する単語とその数値の上位30個を表5.15に示す.

また,表5.14の上位30個の他に素性分析から得た素性の中で,有用であると判断できる分割に関する単語とその数値を表5.16に示す.表5.15の上位30個の他に素性分析から得た素性の中で,有用であると判素できる非分割に関する単語とその数値を表5.17に示す.表5.14,表5.15は「★」のついた3単語連続を用いた.



Table 5.14: BERTでの分割に関する上位30個素性(小説)
  数値
単語 分割 分割しない
、——」★代 0.9970 0.0030
もの——」★代 0.9969 0.0031
——」★代助 0.9967 0.0033
」★彼 0.9952 0.0048
」★まだ 0.9950 0.0050
ゃい」★ 0.9947 0.0053
」★来 0.9944 0.0056
★朝は 0.9943 0.0057
」★嫂 0.9942 0.0058
」★疳 0.9942 0.0058
★翌日、 0.9939 0.0061
」★今度 0.9939 0.0061
」★誠 0.9935 0.0065
」★また 0.9933 0.0067
★夜は 0.9932 0.0068
」★こう 0.9929 0.0071
」★雨 0.9926 0.0074
★朝の 0.9925 0.0075
」★まず 0.9924 0.0076
★しばらくは 0.9924 0.0076
★朝飯は 0.9924 0.0076
★翌日は 0.9917 0.0083
★夜が 0.9914 0.0086
」★寺尾 0.9913 0.0087
★夜の 0.9912 0.0088
」★兄 0.9911 0.0089
」★縫子 0.9909 0.0091
」★親爺 0.9907 0.0093
★翌日朝 0.9906 0.0094
★しばらくする 0.9905 0.0095



Table 5.15: BERTでの非分割に関する上位30個素性(小説)
  数値
単語 分割 分割しない
★「遣る 0.0014 0.9986
★「でしょ 0.0015 0.9985
★「そいつ 0.0015 0.9985
★「妙 0.0015 0.9985
★「庭 0.0015 0.9985
★「門野 0.0015 0.9985
★「焦る 0.0015 0.9985
★「ありゃ 0.0015 0.9985
★「学校 0.0015 0.9985
★「支店 0.0015 0.9985
★「愚図 0.0015 0.9985
★「菓子 0.0015 0.9985
★「分ら 0.0015 0.9985
★「如何なる 0.0015 0.9985
★「何で 0.0015 0.9985
★「落ち 0.0015 0.9985
★「偉い 0.0015 0.9985
★「姉さん 0.0015 0.9985
★「奇麗 0.0015 0.9985
★「兄さん 0.0015 0.9985
★「此奴 0.0015 0.9985
★「うん 0.0015 0.9985
★「本当 0.0015 0.9985
★「好い 0.0015 0.9985
★「貴様 0.0015 0.9985
★「なるほど 0.0015 0.9985
★「先刻 0.0015 0.9985
★「覚え 0.0015 0.9985
★「不断 0.0016 0.9984
★「代 0.0016 0.9984



Table 5.16: BERTでの分割に関する有用素性(小説)
  数値
単語 分割 分割しない
」★彼 0.9952 0.0048
」★まだ 0.9950 0.0050
★しばらくは 0.9924 0.0076
★その後から 0.9895 0.0105
★その後の 0.9872 0.0128
★やがて、 0.9821 0.0179



Table 5.17: BERTでの非分割に関する有用素性(小説)
  数値
単語 分割 分割しない
★「遣る 0.0014 0.9986
★「でしょ 0.0015 0.9985
。★それでいて 0.0050 0.9953
。★ただし 0.0050 0.9950
★けれども機嫌 0.0071 0.9929

5.16,表5.17の有用であると判断した素性の実データ(訓練データ)に対する実際の分割,非分割の頻度について調べた.表5.16の「」★彼」,「」★まだ」などの会話後の「」★」,「★しばらく」,「★その後」,「★やがて」の4つに対する実データの頻度を表5.18に示す.表5.17の「★「遣る」「★「でしょ」などの文間箇所のすぐ後に会話の「★「」,「★ただし」,「★けれども」の3つに対する実データの頻度を表5.19に示す.



Table 5.18: 分割に関する素性の頻度(小説)
  実データの頻度
単語 分割 非分割
」★ 10 136
★しばらく 8 17
★その後 3 3
★やがて 6 15



Table 5.19: 非分割に関する素性の頻度(小説)
  実データの頻度
単語 分割 非分割
★「 0 842
★ただし 0 4
★けれども 0 5

5.18より,「★その後」は分割と非分割の頻度は同数であり,他の3つは非分割の方が頻度が多い.小説では分割に関する素性を得ることができていない.また表5.19より,頻度を調べた3つは全て実データでは非分割の方が多く,全て有用な素性であると言える.

5.18,表5.19の結果より,分割に関する素性を得ることができなかったが,非分割に関する素性を得ることができた.

有用な素性と考えられる「★「」,「★ただし」,「★けれども」に対して,MEMでの素性分析の正規化α値について調査した.得た値を表5.20に示す.



Table 5.20: BERTで得た素性のMEMの正規化α値(小説)
  正規化α値
単語 分割 非分割
0.2516 0.7484
ただし 0.4738 0.5262
けれども 0.4879 0.5121

5.20より,「「」は非分割の値が0.7484と高く,最大エントロピー法においても非分割に関する素性であることが分かる.「ただし」,「けれども」は非分割の値が0.5に近く,最大エントロピー法では非分割に関する素性であるとは言い切れない.

5.12より,「こうした」は分割の値が0.8270と高く,最大エントロピー法においても分割に関する素性であることが分かる.「それで」は非分割の値が0.6169であり,非分割に関する素性であるが,「それから」は非分割の値が0.5110であり、最大エントロピー法では非分割に関する素性であるとは言い切れない.

有用な素性と考えられる表5.19の単語の新聞記事での正解数について調べた.「★けれども」は新聞記事になかったため残り2つの調べた結果を表5.21に示す.



Table 5.21: 新聞記事での表5.19の単語の頻度
  新聞記事の頻度
単語 分割 非分割
★「 98 324
★ただし 2 5

5.21より,2単語とも非分割の方が多く,新聞記事でも有用な素性であると言える.
新聞記事,小説のBERTでの素性分析の結果から,文章を3単語連続にすることで,文間箇所(「★」)付近の箇所での非分割に関する素性を得ることができた.非分割を判断する文間箇所(「★」)の位置を含まない3単語連続の分析をすることが難しい.しかし,文間箇所付近の単語(例えば接続詞)が分割,非分割に関して影響が高く,文間箇所付近の素性を以外を得ることができないことは大きな問題ではない.

最大エントロピー法を用いた素性分析は,分割,非分割に関する素性を得ることができた.また,BERTを用いた素性分析は,新聞記事と小説に対して分割に関する素性を1つしか得ることができなかった.1つしか得ることができていないことから,BERTでの素性素性では,分割に関する素性を得ることは難しいと考えられる.非分割に関する素性は得ることができたが,最大エントロピー法での素性分析と比べると有用な素性の数は少なかった.段落分割の推定においてBERTは最大エントロピー法の推定精度を上回るが,素性分析は最大エントロピー法を用いた手法の方が有効であると考えられる.

また今回の実験では3単語連続で行ったが,4単語,5単語連続に単語を増やすことで入力データが3単語連続より情報量が多いため,分割に関する素性を得ることができるのではないかと考えられる.今後,単語数を増やして分割に関する素性を得ることができるかを調査したい.