表4.7に単語組「東」「西」「南」「北」の機械学習の分類結果を示す. 表4.8に単語組「東」「西」「南」「北」の正規化α値に基づいた機械学習が参考にした素性を示す.
データ数 | 再現率 | 適合率 | |
東 | 1000 | 0.51 | 0.52 |
西 | 1000 | 0.50 | 0.49 |
南 | 1000 | 0.57 | 0.57 |
北 | 1000 | 0.60 | 0.60 |
総数 | 4000 | 0.55 | 0.55 |
「東」「西」「南」「北」全てに共通して「東」と「西」,「南」と「北」は相対的なものであることから双方に対する正規化 1#1値が高くなっていることが分かる.
各々の頻出単語を見ると,「東」では福岡や東京,花巻などの地域を示すものに付くほか,「東(あずま,ひがし)」のように名字としての使用が多く見受けられた.
また「東」同様,「西」でも地域や地域を示すものだけでなく名字で多く使用されていることが判明した.その他にも「西」にはプロ野球チームである「西武ライオンズ」の略称として扱われることもあり,「登板」や「ドーム」といった野球関連の単語も得ることができた.
「南」では対となる「北」よりも「相馬」という単語の正規化 1#1値の方が高くなった.これはこの研究で用いた新聞において,東日本大震災で大きな被害の出た「南相馬市」に関するニュースが多く出現したからである.同様に「南」の頻出単語として独立を目指しスーダンとの衝突を繰り返す「南スーダン」や,グルジアからの独立を宣言している「南オセチア」の記事が多く見られたことに起因すると考えられる.また「平和」という単語は,南スーダンの「平和維持活動」(PKO)という使い方で頻出していた.
「北」では「大阪」や「梅田」のような大阪の地名が頻出していた.大阪や梅田が使用されている文章を確認したところ,梅田のある大阪北区や梅田の北側(通称:ウメキタ)には多くの店だけでなく,会場やホール,ギャラリーがあり,イベントや公演の場となっていることがわかった.また,北は「北海道」や「北朝鮮」の略称として使用されることが多いということもわかった.