next up previous contents
Next: ネットワークの拡大 Up: 単語ネットワーク構築 Previous: ノード候補の抽出   目次


ノード候補の選定

TF-IDFを用いて,抽出されたノード候補の中から,実際にノードに用いる単語を選定する. TF-IDF値の上位5単語をキーワードと関係性の強い単語とする.

TF-IDFについて説明する. TF-IDFは抽出した記事内におけるノード候補となっている単語の重要度を表す. TF-IDFは以下の式3.1で算出される.

4#4 (3.1)

5#5 はキーワードを含む記事群での単語6#6 (ノード候補)の出現回数,7#7 は全記事での単語6#6 の出現記事数とし,8#8 は新聞データの全記事数とする. この式からどの記事にも現れるような重要度の低い単語については低い重みを,他の記事にあまり現れないような貴重な単語には高い重みを与えることになる.



s112054 2017-03-03