次へ: 被験者による評価
上へ: 社会構造モデルの構築における条件付き確率とTF-IDFの比較
戻る: 社会構造モデルの構築における条件付き確率とTF-IDFの比較
目次
提案手法の条件付き確率を用いる方法でノードに利用する単語を取得した結果を表4.3に示す.
またTF-IDFを用いる方法で取得した結果を表4.4に示す.
それぞれ条件付き確率とTF-IDFの値の上位のものを示している.
条件付き確率による単語の抽出
TF-IDFによる単語の抽出
表:
条件付き確率による単語の抽出
単語 |
条件付き確率 |
地震 |
1.000 |
日本 |
0.786 |
震災 |
0.707 |
大震災 |
0.663 |
東日本 |
0.618 |
被災 |
0.461 |
津波 |
0.448 |
東京 |
0.392 |
福島 |
0.377 |
発生 |
0.358 |
避難 |
0.346 |
被害 |
0.343 |
原発 |
0.323 |
事故 |
0.274 |
宮城 |
0.254 |
災害 |
0.243 |
岩手 |
0.220 |
対策 |
0.220 |
キロ |
0.211 |
安全 |
0.210 |
|
表:
TF-IDFによる単語の抽出
単語 |
TF-IDF |
地震 |
15047 |
津波 |
8318 |
原発 |
7394 |
避難 |
6584 |
被災 |
5522 |
福島 |
4903 |
電話 |
4723 |
大震災 |
3796 |
発生 |
3693 |
事故 |
3575 |
宮城 |
3550 |
災害 |
3517 |
安全 |
3295 |
被害 |
3237 |
岩手 |
3229 |
東日本 |
3157 |
防災 |
3053 |
対策 |
2749 |
支援 |
2671 |
原子力 |
2623 |
|
|
|
TF-IDFを用いた場合には,「津波」「原発」「避難」などの地震が起きた際に特に関連が高いと思われる語が上位に集中した.
さらに「電話」という地震が起きた際に注意すべき語も上位に現れた.
一方,条件付き確率を用いた場合は,「日本」「震災」「大震災」など地震には確かに関連があるがTF-IDFを用いた場合ほど関連のないものが上位にきた.
この結果より,ノードの抽出にはTF-IDFを利用した方が良いことがわかった.
以上の結果より,社会構造モデルのノードの抽出にはTF-IDFを利用し,エッジに付与する重みにもTF-IDFのスコアを利用することにする.
条件付き確率を用いる手法が良くない結果となった理由は以下と思われる.
もともと高頻度に出現する単語は地震と共起しやすく条件付き確率が高くなる.
このため,高頻度で出現するが関連性はそれほど高くない単語が上位に現れたと思われる.
松尾らの人間関係ネットワークの抽出[1]の際には,ノード間の関連性の取得に閾値つきのSimpson法を利用するのが良いとされていた.
この方法やそれに類似する方法も本研究で試したが条件付き確率と同様の結果となった.
次へ: 被験者による評価
上へ: 社会構造モデルの構築における条件付き確率とTF-IDFの比較
戻る: 社会構造モデルの構築における条件付き確率とTF-IDFの比較
目次
平成25年2月21日