TF-IDF法

ネットワークの構築において,ノードを選定する際に利用したTF-IDF法について述べる.この節では入力データの電子テキストを新聞データとして説明する. TFとは単語頻度(Term Frequency)のことであり,入力データにおいて,単語tが出現した頻度のことをいう. また,DFは文書頻度(Document Frequency)のことであり,単語tがある記事群Aにおいて出現した記事の数のことをいう. Nを記事群Aの総記事数として,TF-IDF法を用いたノードの選定式を式(2.1)に示す.

1#1 (1)