next up previous contents
次へ: 被験者による評価 上へ: 社会構造モデルの構築における条件付き確率とTF-IDFの比較 戻る: 社会構造モデルの構築における条件付き確率とTF-IDFの比較   目次

条件付き確率とTF-IDFによるノードの抽出

提案手法の条件付き確率を用いる方法でノードに利用する単語を取得した結果を表4.3に示す. またTF-IDFを用いる方法で取得した結果を表4.4に示す. それぞれ条件付き確率とTF-IDFの値の上位のものを示している.


  • 条件付き確率による単語の抽出
  • TF-IDFによる単語の抽出
  • 表: 条件付き確率による単語の抽出
    単語 条件付き確率
    地震 1.000
    日本 0.786
    震災 0.707
    大震災 0.663
    東日本 0.618
    被災 0.461
    津波 0.448
    東京 0.392
    福島 0.377
    発生 0.358
    避難 0.346
    被害 0.343
    原発 0.323
    事故 0.274
    宮城 0.254
    災害 0.243
    岩手 0.220
    対策 0.220
    キロ 0.211
    安全 0.210
    表: TF-IDFによる単語の抽出
    単語 TF-IDF
    地震 15047
    津波 8318
    原発 7394
    避難 6584
    被災 5522
    福島 4903
    電話 4723
    大震災 3796
    発生 3693
    事故 3575
    宮城 3550
    災害 3517
    安全 3295
    被害 3237
    岩手 3229
    東日本 3157
    防災 3053
    対策 2749
    支援 2671
    原子力 2623

    TF-IDFを用いた場合には,「津波」「原発」「避難」などの地震が起きた際に特に関連が高いと思われる語が上位に集中した. さらに「電話」という地震が起きた際に注意すべき語も上位に現れた.

    一方,条件付き確率を用いた場合は,「日本」「震災」「大震災」など地震には確かに関連があるがTF-IDFを用いた場合ほど関連のないものが上位にきた. この結果より,ノードの抽出にはTF-IDFを利用した方が良いことがわかった.

    以上の結果より,社会構造モデルのノードの抽出にはTF-IDFを利用し,エッジに付与する重みにもTF-IDFのスコアを利用することにする.

    条件付き確率を用いる手法が良くない結果となった理由は以下と思われる. もともと高頻度に出現する単語は地震と共起しやすく条件付き確率が高くなる. このため,高頻度で出現するが関連性はそれほど高くない単語が上位に現れたと思われる.

    松尾らの人間関係ネットワークの抽出[1]の際には,ノード間の関連性の取得に閾値つきのSimpson法を利用するのが良いとされていた. この方法やそれに類似する方法も本研究で試したが条件付き確率と同様の結果となった.


    next up previous contents
    次へ: 被験者による評価 上へ: 社会構造モデルの構築における条件付き確率とTF-IDFの比較 戻る: 社会構造モデルの構築における条件付き確率とTF-IDFの比較   目次
    平成25年2月21日