実験データには,新聞とWikipediaを用いる. 新聞には,毎日新聞2011年の1年分の記事, 96,630記事を用いる. また,Wikipediaには1,602,208記事が含まれる.
新聞とWikipediaの比較のためにキーワードを含む記事を抽出し, 抽出された記事群内の名詞の出現頻度を利用して単語抽出を行い,比較する. 本研究では,キーワードは「地震」と「経済」とした. 「地震」と「経済」の両方の単語が同時に出現した記事をキーワードに関連する記事群として抽出する.
抽出された記事群は,新聞データからは514記事であり,Wikipediaからは2818記事であった.
抽出された記事群に出現する名詞を出現頻度順に整理し比較する.
結果を表4.1, 表4.2に示す.
|
Wikipediaでは多くの事柄の説明を簡潔に記載しているだけであり,ある重要な事柄が頻度が高く繰り返し記載されるということはないため, そのような文章の頻度では,関連の高い単語を抽出できなかったと思われる.
一方新聞データでは,社会的に大きな事柄については高頻度に記述されるため,頻度により今回扱った地震,経済に関連の高い単語を抽出できたと思われる.
以上の結果より,Wikipediaよりも新聞データの方がキーワードに近い単語の取り出しに役立つことがわかった. このため,本研究での以降の実験では,新聞データを利用することにする.
Wikipediaには記事数が多く,抽出する記事群を減らし計算コストを削減するために「地震」「経済」をキーワードとしていた. しかし,新聞データではそこまで記事数を減らして計算コストを削減する必要はないため,以降の実験では,「地震」「経済」でなく,「地震」のみをキーワードとして用いることとする.