新聞記事を用いたBERTでの実験の素性分析を行った.素性分析から得た分割に関する単語とその数値の上位30個を表5.6,非分割に関する単語とその数値の上位30個を表5.7に示す.表5.6,表5.7は「★」が含まれる3単語連続での数値の順に示した.
また,表5.6の上位30個の他に素性分析から得た素性の中で,有用であると判断できる分割に関する単語とその数値を表5.8に示す.表5.7の上位30個の他に素性分析から得た素性の中で,有用であると判素できる非分割に関する単語とその数値を表5.9に示す.
数値 | ||
単語 | 分割 | 分割しない |
目指したい——。★ | 0.9984 | 0.0016 |
べきだ——。★ | 0.9984 | 0.0016 |
ね」——。★ | 0.9979 | 0.0021 |
★こうした取り組み | 0.9978 | 0.0022 |
もいる——。★ | 0.9975 | 0.0025 |
ない」——。★ | 0.9975 | 0.0025 |
」——。★毎日 | 0.9974 | 0.0026 |
や」——。★ | 0.9973 | 0.0027 |
マフィア」——。★ | 0.9965 | 0.0035 |
★こうした動き | 0.9963 | 0.0037 |
なぜか——。★ | 0.9962 | 0.0038 |
ならず——。★ | 0.9959 | 0.0041 |
たい——。★東京 | 0.9959 | 0.0041 |
」——。★昨年 | 0.9957 | 0.0043 |
は無理——。★ | 0.9956 | 0.0044 |
★こうしたこと | 0.9956 | 0.0044 |
★イラン生まれ | 0.9954 | 0.0046 |
ず——。★東大阪 | 0.9952 | 0.0048 |
★イランは | 0.9952 | 0.0048 |
★イランについて | 0.9948 | 0.0052 |
無理——。★この | 0.9947 | 0.0053 |
★猷サブプライムローン | 0.9945 | 0.0055 |
」——。★石油 | 0.9943 | 0.0057 |
★こうした問題 | 0.9941 | 0.0059 |
★イノベーションは | 0.9939 | 0.0061 |
」——。★0 | 0.9939 | 0.0061 |
★事件は | 0.9938 | 0.0062 |
★この忙しい | 0.9937 | 0.0063 |
★イランにとって | 0.9932 | 0.0068 |
★かつては | 0.9927 | 0.0073 |
数値 | ||
単語 | 分割 | 分割しない |
下り。★ | 0.0011 | 0.9989 |
中身。★ | 0.0012 | 0.9988 |
。★後で | 0.0012 | 0.9988 |
今年。★ | 0.0012 | 0.9988 |
欠席。★ | 0.0012 | 0.9988 |
持参。★ | 0.0012 | 0.9988 |
画。★ | 0.0012 | 0.9988 |
行き。★ | 0.0012 | 0.9988 |
。★それで | 0.0012 | 0.9988 |
男の子。すばらしい | 0.0012 | 0.9988 |
前後。★ | 0.0012 | 0.9988 |
銭。★ | 0.0012 | 0.9988 |
刻み。★ | 0.0012 | 0.9988 |
失点。★ | 0.0012 | 0.9988 |
円。★ | 0.0012 | 0.9988 |
。★没後 | 0.0012 | 0.9988 |
補給。★ | 0.0012 | 0.9988 |
四球。★ | 0.0012 | 0.9988 |
未定。★ | 0.0012 | 0.9988 |
入り。★ | 0.0012 | 0.9988 |
毎日。★ | 0.0012 | 0.9988 |
罰金。★ | 0.0013 | 0.9987 |
。★不偏不党 | 0.0013 | 0.9987 |
クリア。★ | 0.0013 | 0.9987 |
変化。年末年始 | 0.0013 | 0.9987 |
クリケット。★ | 0.0013 | 0.9987 |
。★読み返す | 0.0013 | 0.9987 |
。★喪主 | 0.0013 | 0.9987 |
。★それから | 0.0013 | 0.9987 |
味。★ | 0.0013 | 0.9987 |
数値 | ||
単語 | 分割 | 分割しない |
目指したい——。★ | 0.9984 | 0.0016 |
べきだ——。★ | 0.9984 | 0.0016 |
★こうした取り組み | 0.9978 | 0.0022 |
★こうしたこと | 0.9956 | 0.0044 |
★かつては | 0.9927 | 0.0073 |
★この時期 | 0.9924 | 0.0076 |
★もともとは | 0.9918 | 0.0082 |
数値 | ||
単語 | 分割 | 分割しない |
下り。★ | 0.0011 | 0.9989 |
中身。★ | 0.0012 | 0.9988 |
。★後で | 0.0012 | 0.9988 |
欠席。★ | 0.0012 | 0.9988 |
持参。★ | 0.0012 | 0.9988 |
。★それで | 0.0012 | 0.9988 |
。★それから | 0.0013 | 0.9987 |
表5.8,表5.9の有用であると判断した素性の実データ(訓練データの新聞記事7,500)に対する実際の分割,非分割の頻度について調べた.表5.8の「——。★」,「★こうした」,「★かつて」,「★この」,「★もともと」の5つに対する実データの頻度を表5.10に示す.表5.9の「下り。」「中身。」などの文末の体言止め,「★それで」,「★それから」の3つに対する実データの頻度を表5.11に示す.
表5.10より,「★こうした」,「★もともと」は実データの分割の頻度が非分割より多かった.「★こうした」は,MEMの素性分析にも出現しており,分割に関して有用な素性であると言える.「★もともと」は実データの頻度が1回と少なく,有用な素性であるとは言い切れない.他の3単語は,実データでは非分割の方が多い,または同数である.
また表5.11より,頻度を調べた3つは全て実データで非分割の方が多く,「★それから」は3回と頻度が少ないが,いずれも非分割に関する素性として有用な素性であると言える.
「★こうした」,「★それで」,「★それから」に対して,MEMでの素性分析の正規化α値について調査した.得た値を表5.12に示す.
正規化α値 | ||
単語 | 分割 | 非分割 |
こうした | 0.8270 | 0.1730 |
それで | 0.3831 | 0.6169 |
それから | 0.4890 | 0.5110 |
表5.12より,「こうした」は分割の値が0.8270と高く,最大エントロピー法においても分割に関する素性であることが分かる.「それで」は非分割の値が0.6169であり,非分割に関する素性であるが,「それから」は非分割の値が0.5110であり、最大エントロピー法では非分割に関する素性であるとは言い切れない.
有用な素性と考えられる「★こうした」,「★それで」,「★それから」の3単語の小説の訓練データでの頻度について調べた.「★こうした」は小説に存在しなかったので、他2単語について調べた頻度を表5.13に示す.
表5.13より,2単語とも非分割の頻度の方が多いことが分かる.