next up previous contents
次へ: エッジに重みの付与 上へ: 社会構造モデルの構築 戻る: ノード候補の抽出   目次

ノードの選定

得られたノードの候補の中から,条件付き確率とTF-IDFのどちらかを用いて, 実際にノードに用いる単語を選定する. 選定を行う際には,条件付き確率,またはTF-IDFのスコアの上位5単語をキーワードと関係性の強い単語とする.

条件付き確率を用いる方法を説明する. $ A$ を単語aを含んだ記事群,$ B$ をノード候補の単語を含んだ記事群とし, $ n(A)$ は単語aを含んだ記事数, $ n(A\cap B)$ は単語aとノード候補の単語が同じ記事内で共起した記事数であるとし条件付き確率を式3.1で表す.

$\displaystyle \displaystyle P(B\vert A)=\frac{P(A\cap B)}{P(A)}=\frac{n(A\cap B)}{n(A)}$ (3.1)

この値が大きいノード候補の単語をモデルのノードとして用いる.

TF-IDFを用いる方法を説明する. $ tf$ は抽出された対象テキスト内でのノード候補の単語の出現回数, $ df$ は新聞データ内でのノード候補の単語の出現記事数とし,$ N$ は新聞データの総記事数としTF-IDFを式3.2で表す.

$\displaystyle \displaystyle w=tf*\log\frac{N}{df}$ (3.2)

この値が大きいノード候補の単語をモデルのノードとして用いる. 上記の方法で選定した5単語を単語aのノードから繋がるノードnとする.



平成25年2月21日