「東」「西」「南」「北」

(正解例1)
約十分後、現場から約五キロで街路樹に二台の車がぶつかっているのを発見、関連を調べている。
(正解例2)
JR西は同日、16年3月期連結決算の業績予想を上方修正し、売上高は従来予想より200億円増の1兆4115億円、最終利益は90億円増の905億円とした。
(正解例3)
相馬市に転居して三十数年ぶりで福島市までバスに乗ったところ終点に着くと、運転手さんから「だいぶ前に乗っていましたよね」と言われ、びっくりしました。
(正解例4)
この後、大阪市区の選挙事務所に戻って出陣式。

(誤り例1)
(東)の方を見上げれば、いつも浅間山の白い煙が澄み切った空に浮かんで見えました。

(誤り例2)
(西)ヨーロッパ諸国も「長距離大気汚染防止条約」(七九年)を結び、汚染物質の排出を大幅に抑えている。

(誤り例3)
奈良・山の辺の道の西(南)の終点近くにある「つば市観音」。

(誤り例4)
最後の大正区のひったくり事件が起きた約二十分後、現場から(北)約三キロの駐車場で、犯行に使ったとみられる車が炎上した。

4.7に単語組「東」「西」「南」「北」の機械学習の分類結果を示す. 表4.8に単語組「東」「西」「南」「北」の正規化α値に基づいた機械学習が参考にした素性を示す.




Table 4.7: 機械学習の分類結果(「東」「西」「南」「北」)
  データ数 再現率 適合率
1000 0.51 0.52
西 1000 0.50 0.49
1000 0.57 0.57
1000 0.60 0.60
総数 4000 0.55 0.55


Table 4.8: 機械学習が参考にした素性(正規化 1#1値:「東」「西」「南」「北」)


27#27


「東」「西」「南」「北」全てに共通して「東」と「西」,「南」と「北」は相対的なものであることから双方に対する正規化 1#1値が高くなっていることが分かる.

各々の頻出単語を見ると,「東」では福岡や東京,花巻などの地域を示すものに付くほか,「東(あずま,ひがし)」のように名字としての使用が多く見受けられた.

また「東」同様,「西」でも地域や地域を示すものだけでなく名字で多く使用されていることが判明した.その他にも「西」にはプロ野球チームである「西武ライオンズ」の略称として扱われることもあり,「登板」や「ドーム」といった野球関連の単語も得ることができた.

「南」では対となる「北」よりも「相馬」という単語の正規化 1#1値の方が高くなった.これはこの研究で用いた新聞において,東日本大震災で大きな被害の出た「南相馬市」に関するニュースが多く出現したからである.同様に「南」の頻出単語として独立を目指しスーダンとの衝突を繰り返す「南スーダン」や,グルジアからの独立を宣言している「南オセチア」の記事が多く見られたことに起因すると考えられる.また「平和」という単語は,南スーダンの「平和維持活動」(PKO)という使い方で頻出していた.

「北」では「大阪」や「梅田」のような大阪の地名が頻出していた.大阪や梅田が使用されている文章を確認したところ,梅田のある大阪北区や梅田の北側(通称:ウメキタ)には多くの店だけでなく,会場やホール,ギャラリーがあり,イベントや公演の場となっていることがわかった.また,北は「北海道」や「北朝鮮」の略称として使用されることが多いということもわかった.