next up previous contents
次へ: ネットワークの拡大 上へ: 先行手法 戻る: 形態素解析   目次

TF-IDFによるノードの選定

得られたノードの候補の中から,TF-IDFを用いて,実際にノードに用いる単語を選定する. TF-IDF値の上位5単語をキーワードと関係性の強い単語とする.

TF-IDFについて説明する. TF-IDFは抽出した記事内におけるノード候補となっている単語の重要度を表す. TF-IDFは以下の式で算出される.

$\displaystyle \small \displaystyle TF\rule[0.3zw]{0.25zw}{.4pt}IDF=tf_{t}*\log\frac{N}{df_{t}}$ (3.1)

図: tfとdfの関係図
\fbox{
\includegraphics[width=135mm]{soturon_tfidf.eps}
}

$ tf_{t}$ は抽出された対象テキスト内でのノード候補の単語$ t$ の出現回数, $ df_{t}$ は新聞データ内でのノード候補の単語$ t$ の出現記事数とし,$ N$ は新聞データの総記事数とする. この式からどの記事にも現れるような重要度の低い単語については低い重みを, 他の記事にあまり現れないような貴重な単語には高い重みを与えることになる. TF-IDFの値が大きいノード候補の単語をネットワークのノードとして用いる. 上記の方法で選定した5単語を単語aのノードから繋がるノードとする.



root 平成26年3月29日