分類分けが中だが置き換え可の値が高かったもの

ここでは,分類分けが中だが置き換え可の値が高かったものとして,最も置き換え可の値が高かった,「公設」「私設」に関して考察する. 「公設」「私設」は置き換え可と判断された割合は0.67(20/30)である. 表5.19に機械学習の性能を示す.表5.20に機械学習が参考にした素性を示す.




Table 5.19: 機械学習の性能(「公設」「私設」)
  データ数 再現率
公設 375 82.13%
私設 375 84.53%




Table 5.20: 機械学習が参考にした性能(「公設」「私設」)
公設 私設
素性 数値 素性 数値
素性1:社会党 0.9968 素性1:応援団 0.9507
  素性1:財政 0.9962 素性1:ヘリポート 0.8364

「公設」「私設」共に, 「秘書」に関するものが多く見られた. 素性としては「公設」は「社会党」「財政」など政治に関するものが多く見られた.以下に例文を示す.

「私設」は「応援団」「ヘリポート」など「秘書」に関係のない, 場所についてのものが見られた. 以下に例を示す.

置き換え可の値が高くなってしまった原因としては,慣用的な表現があまりなく,さらに文法的な使い方の違いがあまりないので,置き換え可の値が高くなったためと考えられる.文法的な使い方の違いがあまりないのに機械学習の性能がよいのは,使われている文章が「私設」「公設」ともに特徴的であり,そのことを多く学習したことが原因だと考えられる.特徴的な文章を多く学習したのは,「私設」「公設」が元々使わる場面が限定される単語なことと,新聞からデータを取得しているので収集する文章に偏りが出たことが原因だと考えられる.