TF-IDFについて説明する. TF-IDFは抽出した記事内におけるノード候補となっている単語の重要度を表す. TF-IDFは以下の式で算出される.
5#5 はキーワードを含む記事群での単語6#6 (ノード候補)の出現回数,7#7 は全記事での単語6#6 の出現記事数とし,8#8 は新聞データの全記事数とする. この式からどの記事にも現れるような重要度の低い単語については低い重みを,他の記事にあまり現れないような貴重な単語には高い重みを与えることになる.