TF-IDFについて説明する. TF-IDFは抽出した記事内におけるノード候補となっている単語の重要度を表す. TF-IDFは以下の式で算出される.
は抽出された対象テキスト内でのノード候補の単語
の出現回数,
は新聞データ内でのノード候補の単語
の出現記事数とし,
は新聞データの総記事数とする.
この式からどの記事にも現れるような重要度の低い単語については低い重みを,
他の記事にあまり現れないような貴重な単語には高い重みを与えることになる.
TF-IDFの値が大きいノード候補の単語をネットワークのノードとして用いる.
上記の方法で選定した5単語を単語aのノードから繋がるノードとする.