ここでは,分類分けが中だが置き換え可の値が高かったものとして,最も置き換え可の値が高かった,「公設」「私設」に関して考察する.
「公設」「私設」は置き換え可と判断された割合は0.67(20/30)である.
表5.19に機械学習の性能を示す.表5.20に機械学習が参考にした素性を示す.
Table 5.19:
機械学習の性能(「公設」「私設」)
|
データ数 |
再現率 |
公設 |
375 |
82.13% |
私設 |
375 |
84.53% |
Table 5.20:
機械学習が参考にした性能(「公設」「私設」)
公設 |
私設 |
素性 |
数値 |
素性 |
数値 |
素性1:社会党 |
0.9968 |
素性1:応援団 |
0.9507 |
素性1:財政 |
0.9962 |
素性1:ヘリポート |
0.8364 |
「公設」「私設」共に, 「秘書」に関するものが多く見られた.
素性としては「公設」は「社会党」「財政」など政治に関するものが多く見られた.以下に例文を示す.
- 世論の風当たりや窮屈な党財政を考えて取りやめも検討したが、各議員が公設秘書などに支払うボーナスの原資としてモチ代をあてにしていた台所事情を考慮した。
- 当時、社会党の横路孝弘の公設第一秘書だった。
「私設」は「応援団」「ヘリポート」など「秘書」に関係のない, 場所についてのものが見られた.
以下に例を示す.
- 投票を二週間後に控え、私設応援団のボルテージが上がってきた。
- 経営者は四年前にライセンスを取得、私設ヘリポートは許可を取っている。
置き換え可の値が高くなってしまった原因としては,慣用的な表現があまりなく,さらに文法的な使い方の違いがあまりないので,置き換え可の値が高くなったためと考えられる.文法的な使い方の違いがあまりないのに機械学習の性能がよいのは,使われている文章が「私設」「公設」ともに特徴的であり,そのことを多く学習したことが原因だと考えられる.特徴的な文章を多く学習したのは,「私設」「公設」が元々使わる場面が限定される単語なことと,新聞からデータを取得しているので収集する文章に偏りが出たことが原因だと考えられる.