next up previous contents
次へ: 社会構造モデルの構築における条件付き確率とTF-IDFの比較 上へ: 実験 戻る: 実験   目次

実験データの選定

本節では事前実験として,どのようなデータが社会構造モデルの構築にふさわしいかを調べる.

実験データには,新聞とWikipediaを用いる. 新聞には,毎日新聞2011年の1年分の記事, 96,630記事を用いる. また,Wikipediaには1,602,208記事が含まれる.

新聞とWikipediaの比較のためにキーワードを含む記事を抽出し, 抽出された記事群内の名詞の出現頻度を利用して単語抽出を行い,比較する. 本研究では,キーワードは「地震」と「経済」とした. 「地震」と「経済」の両方の単語が同時に出現した記事をキーワードに関連する記事群として抽出する.

抽出された記事群は,新聞データからは514記事であり,Wikipediaからは2818記事であった. 抽出された記事群に出現する名詞を出現頻度順に整理し比較する. 結果を表4.1, 表4.2に示す.

  • 新聞データにおける単語の抽出
  • Wikipediaにおける単語の抽出
  • 表: 新聞データにおける単語の抽出
    単語 出現回数
    原発 3604
    事故 1594
    安全 1570
    福島 1477
    地震 1371
    原子力 1190
    日本 1132
    号機 1028
    経済 970
    東電 852
    津波 849
    大震災 832
    政府 778
    被災 759
    対策 723
    首相 686
    保安 668
    東日本 664
    原子 643
    評価 589
    表: Wikipediaにおける単語の抽出
    単語 出現回数
    放送 48947
    日本 47033
    番組 25279
    東京 21992
    テレビ 19350
    地震 16774
    平成 16533
    利用 15941
    昭和 15016
    都市 14640
    現在 14498
    選手 14100
    世界 13942
    開始 13699
    学校 13524
    地域 13479
    研究 13044
    時代 12197
    野球 11580
    情報 11550

    Wikipediaでは,頻度の高い単語であっても,地震,経済に直接関連しない単語が多く得られた. 一方新聞データでは,地震や経済と関連の高い「原発」「事故」「安全」などの単語が抽出された. これの理由としては,以下が考えられる.

    Wikipediaでは多くの事柄の説明を簡潔に記載しているだけであり,ある重要な事柄が頻度が高く繰り返し記載されるということはないため, そのような文章の頻度では,関連の高い単語を抽出できなかったと思われる.

    一方新聞データでは,社会的に大きな事柄については高頻度に記述されるため,頻度により今回扱った地震,経済に関連の高い単語を抽出できたと思われる.

    以上の結果より,Wikipediaよりも新聞データの方がキーワードに近い単語の取り出しに役立つことがわかった. このため,本研究での以降の実験では,新聞データを利用することにする.

    Wikipediaには記事数が多く,抽出する記事群を減らし計算コストを削減するために「地震」「経済」をキーワードとしていた. しかし,新聞データではそこまで記事数を減らして計算コストを削減する必要はないため,以降の実験では,「地震」「経済」でなく,「地震」のみをキーワードとして用いることとする.


    next up previous contents
    次へ: 社会構造モデルの構築における条件付き確率とTF-IDFの比較 上へ: 実験 戻る: 実験   目次
    平成25年2月21日