新聞記事の素性

新聞記事を用いたBERTでの実験の素性分析を行った.素性分析から得た分割に関する単語とその数値の上位30個を表5.6,非分割に関する単語とその数値の上位30個を表5.7に示す.表5.6,表5.7は「★」が含まれる3単語連続での数値の順に示した.

また,表5.6の上位30個の他に素性分析から得た素性の中で,有用であると判断できる分割に関する単語とその数値を表5.8に示す.表5.7の上位30個の他に素性分析から得た素性の中で,有用であると判素できる非分割に関する単語とその数値を表5.9に示す.



Table 5.6: 3単語連続での分割に関する上位30個素性(新聞記事)
  数値
単語 分割 分割しない
目指したい——。★ 0.9984 0.0016
べきだ——。★ 0.9984 0.0016
ね」——。★ 0.9979 0.0021
★こうした取り組み 0.9978 0.0022
もいる——。★ 0.9975 0.0025
ない」——。★ 0.9975 0.0025
」——。★毎日 0.9974 0.0026
や」——。★ 0.9973 0.0027
マフィア」——。★ 0.9965 0.0035
★こうした動き 0.9963 0.0037
なぜか——。★ 0.9962 0.0038
ならず——。★ 0.9959 0.0041
たい——。★東京 0.9959 0.0041
」——。★昨年 0.9957 0.0043
は無理——。★ 0.9956 0.0044
★こうしたこと 0.9956 0.0044
★イラン生まれ 0.9954 0.0046
ず——。★東大阪 0.9952 0.0048
★イランは 0.9952 0.0048
★イランについて 0.9948 0.0052
無理——。★この 0.9947 0.0053
★猷サブプライムローン 0.9945 0.0055
」——。★石油 0.9943 0.0057
★こうした問題 0.9941 0.0059
★イノベーションは 0.9939 0.0061
」——。★0 0.9939 0.0061
★事件は 0.9938 0.0062
★この忙しい 0.9937 0.0063
★イランにとって 0.9932 0.0068
★かつては 0.9927 0.0073



Table 5.7: 3単語連続での非分割に関する上位30個素性(新聞記事)
  数値
単語 分割 分割しない
下り。★ 0.0011 0.9989
中身。★ 0.0012 0.9988
。★後で 0.0012 0.9988
今年。★ 0.0012 0.9988
欠席。★ 0.0012 0.9988
持参。★ 0.0012 0.9988
画。★ 0.0012 0.9988
行き。★ 0.0012 0.9988
。★それで 0.0012 0.9988
男の子。すばらしい 0.0012 0.9988
前後。★ 0.0012 0.9988
銭。★ 0.0012 0.9988
刻み。★ 0.0012 0.9988
失点。★ 0.0012 0.9988
円。★ 0.0012 0.9988
。★没後 0.0012 0.9988
補給。★ 0.0012 0.9988
四球。★ 0.0012 0.9988
未定。★ 0.0012 0.9988
入り。★ 0.0012 0.9988
毎日。★ 0.0012 0.9988
罰金。★ 0.0013 0.9987
。★不偏不党 0.0013 0.9987
クリア。★ 0.0013 0.9987
変化。年末年始 0.0013 0.9987
クリケット。★ 0.0013 0.9987
。★読み返す 0.0013 0.9987
。★喪主 0.0013 0.9987
。★それから 0.0013 0.9987
味。★ 0.0013 0.9987
   



Table 5.8: 分割に関する素性(新聞記事)
  数値
単語 分割 分割しない
目指したい——。★ 0.9984 0.0016
べきだ——。★ 0.9984 0.0016
★こうした取り組み 0.9978 0.0022
★こうしたこと 0.9956 0.0044
★かつては 0.9927 0.0073
★この時期 0.9924 0.0076
★もともとは 0.9918 0.0082



Table 5.9: 非分割に関する素性(新聞記事)
  数値
単語 分割 分割しない
下り。★ 0.0011 0.9989
中身。★ 0.0012 0.9988
。★後で 0.0012 0.9988
欠席。★ 0.0012 0.9988
持参。★ 0.0012 0.9988
。★それで 0.0012 0.9988
。★それから 0.0013 0.9987

5.8,表5.9の有用であると判断した素性の実データ(訓練データの新聞記事7,500)に対する実際の分割,非分割の頻度について調べた.表5.8の「——。★」,「★こうした」,「★かつて」,「★この」,「★もともと」の5つに対する実データの頻度を表5.10に示す.表5.9の「下り。」「中身。」などの文末の体言止め,「★それで」,「★それから」の3つに対する実データの頻度を表5.11に示す.



Table 5.10: 分割に関する素性の頻度(新聞記事)
  実データの頻度
単語 分割 非分割
——。★ 3 5
★こうした 4 2
★かつて 1 1
★この 26 53
★もともと 1 0



Table 5.11: 非分割に関する素性の頻度(新聞記事)
  実データの頻度
単語 分割 非分割
体言止め 110 1,167
★それで 8 14
★それから 0 3

5.10より,「★こうした」,「★もともと」は実データの分割の頻度が非分割より多かった.「★こうした」は,MEMの素性分析にも出現しており,分割に関して有用な素性であると言える.「★もともと」は実データの頻度が1回と少なく,有用な素性であるとは言い切れない.他の3単語は,実データでは非分割の方が多い,または同数である.

また表5.11より,頻度を調べた3つは全て実データで非分割の方が多く,「★それから」は3回と頻度が少ないが,いずれも非分割に関する素性として有用な素性であると言える.

「★こうした」,「★それで」,「★それから」に対して,MEMでの素性分析の正規化α値について調査した.得た値を表5.12に示す.



Table 5.12: BERTで得た素性のMEMの正規化α値(新聞記事)
  正規化α値
単語 分割 非分割
こうした 0.8270 0.1730
それで 0.3831 0.6169
それから 0.4890 0.5110

5.12より,「こうした」は分割の値が0.8270と高く,最大エントロピー法においても分割に関する素性であることが分かる.「それで」は非分割の値が0.6169であり,非分割に関する素性であるが,「それから」は非分割の値が0.5110であり、最大エントロピー法では非分割に関する素性であるとは言い切れない.

有用な素性と考えられる「★こうした」,「★それで」,「★それから」の3単語の小説の訓練データでの頻度について調べた.「★こうした」は小説に存在しなかったので、他2単語について調べた頻度を表5.13に示す.



Table 5.13: 小説での表5.11の単語の頻度
  小説の頻度
単語 分割 非分割
★それで 1 20
★それから 15 27

5.13より,2単語とも非分割の頻度の方が多いことが分かる.