ノード候補の選定

TF-IDFを用いて,抽出されたノード候補の中から,実際にノードに用いる単語を選定する. TF-IDF値の上位5単語をキーワードと関係性の強い単語とする.

TF-IDFについて説明する. TF-IDFは抽出した記事内におけるノード候補となっている単語の重要度を表す. TF-IDFは以下の式[*]で算出される.

  $\displaystyle \small
\displaystyle TF\rule[0.3zw]{0.25zw}{.4pt}IDF=tf_{t}*\log\frac{N}{df_{t}}
$ (1)

$tf_{t}$はキーワードを含む記事群での単語$t$(ノード候補)の出現回数,$df_{t}$は全記事での単語$t$の出現記事数とし,$N$は新聞データの全記事数とする. この式からどの記事にも現れるような重要度の低い単語については低い重みを,他の記事にあまり現れないような貴重な単語には高い重みを与えることになる.