TF-IDF法
ネットワークの構築において,ノードを選定する際に利用したTF-IDF法について述べる.この節では入力データの電子テキストを新聞データとして説明する.
TFとは単語頻度(Term Frequency)のことであり,入力データにおいて,単語tが出現した頻度のことをいう.
また,DFは文書頻度(Document Frequency)のことであり,単語tがある記事群Aにおいて出現した記事の数のことをいう.
Nを記事群Aの総記事数として,TF-IDF法を用いたノードの選定式を式(2.1)に示す.