分類分けが中だが置き換え可の値が高かったもの

ここでは,分類分けが中だが置き換え可の値が高かったものとして,最も置き換え可の値が高かった,「格下げ」「格上げ」に関して考察する. 「格上げ」「格下げ」は置き換え可と判断された割合は0.93(28/30)である. 表5.27に機械学習の性能を示す. 表5.28に機械学習が参考にした素性を示す.




表: 機械学習の性能(「格下げ」「格上げ」)
  データ数 再現率
格下げ 839 88.20%
格上げ 839 89.99%




表: 機械学習が参考にした素性(「格上げ」「格下げ」)
格下げ 格上げ
素性 正規化 $ \alpha $ 素性 正規化 $ \alpha $
素性1:国債 0.80 素性1:国連 0.65
素性1:銀行 0.69 素性1:会談 0.62
素性1:金融 0.67 素性1:国際 0.60
素性1:危機 0.62 素性1:加盟 0.60
素性1:悪化 0.61 素性1:交渉 0.60

有用な素性としては「格下げ」は「国債」「銀行」「金融」などお金に関するものが多く見られた.以下に例文を示す. また,「危機」「悪化」などマイナスイメージのある言葉も多く見られた. 「格上げ」は「国連」「会談」「国際」「加盟」「交渉」など政治に関するもの特に,国連に関わってくるものが多く見られた. 以下に例を示す. などがあった.「格下げ」ならお金に関するものばかりが見られ,「格上げ」なら国連に関するものばかりが見られた.

置き換え可の値が高くなってしまった原因としては,慣用的な表現があまりなく,さらに文法的な使い方の違いがあまりないので,置き換え可の値が高くなったためと考えられる.文法的な使い方の違いがあまりないのに機械学習の性能がよいのは,使われている文章が「格上げ」「格下げ」ともに特徴的であり,そのことを多く学習したことが原因だと考えられる.特徴的な文章を多く学習したのは,「格上げ」「格下げ」が元々使わる場面が限定される単語なことと,新聞からデータを取得しているので収集する文章に偏りが出たことが原因だと考えられる.