ここでは,分類分けが中だが置き換え可の値が高かったものとして,最も置き換え可の値が高かった,「格下げ」「格上げ」に関して考察する.
「格上げ」「格下げ」は置き換え可と判断された割合は0.93(28/30)である.
表5.27に機械学習の性能を示す.
表5.28に機械学習が参考にした素性を示す.
表:
機械学習の性能(「格下げ」「格上げ」)
|
データ数 |
再現率 |
格下げ |
839 |
88.20% |
格上げ |
839 |
89.99% |
表:
機械学習が参考にした素性(「格上げ」「格下げ」)
格下げ |
格上げ |
素性 |
正規化 値 |
素性 |
正規化 値 |
素性1:国債 |
0.80 |
素性1:国連 |
0.65 |
素性1:銀行 |
0.69 |
素性1:会談 |
0.62 |
素性1:金融 |
0.67 |
素性1:国際 |
0.60 |
素性1:危機 |
0.62 |
素性1:加盟 |
0.60 |
素性1:悪化 |
0.61 |
素性1:交渉 |
0.60 |
有用な素性としては「格下げ」は「国債」「銀行」「金融」などお金に関するものが多く見られた.以下に例文を示す.
- 世界市場の混乱不可避米国債の格下げで世界の金融市場の混乱は避けられそうにない
- スペインは不動産バブルの崩壊や欧州各国の国債価格下落などで銀行の財務内容が悪化しており、格下げは銀行の資金調達をさらに難しくしそうだ
また,「危機」「悪化」などマイナスイメージのある言葉も多く見られた.
「格上げ」は「国連」「会談」「国際」「加盟」「交渉」など政治に関するもの特に,国連に関わってくるものが多く見られた.
以下に例を示す.
- パレスチナは米政権の反対を押し切り、昨年11月、国連で地位格上げに成功するなど、イスラエルに揺さぶりをかけ続けている
- 国際的には「国家」と認められていないが、これまでのオブザーバー資格から格上げされ、195番目の「加盟国」の地位を得た
などがあった.「格下げ」ならお金に関するものばかりが見られ,「格上げ」なら国連に関するものばかりが見られた.
置き換え可の値が高くなってしまった原因としては,慣用的な表現があまりなく,さらに文法的な使い方の違いがあまりないので,置き換え可の値が高くなったためと考えられる.文法的な使い方の違いがあまりないのに機械学習の性能がよいのは,使われている文章が「格上げ」「格下げ」ともに特徴的であり,そのことを多く学習したことが原因だと考えられる.特徴的な文章を多く学習したのは,「格上げ」「格下げ」が元々使わる場面が限定される単語なことと,新聞からデータを取得しているので収集する文章に偏りが出たことが原因だと考えられる.