next up previous contents
Next: 段落分けによる入力データの処理 Up: 提案手法 Previous: 提案手法   目次


TF-IDFにおけるDFの扱い

単一文書を入力として単語ネットワークを構築するため,重要度を算出するTF-IDFの式に用いるDFの値を新たな手法により算出する. 先行手法の3.1.5節では,TF-IDFで用いるDFを算出する際に入力データを使用していた.本来,TF-IDFを算出する場合,入力データである文書群における単語の出現頻度(DF)が低いほど重要語として扱われる.また,DFを算出する際には入力データとは別の文書群を用いなければいけないため,入力データでDFを算出すると,DFの値が大きくなったものが重要となる場合があり,本来のTF-IDF手法とは矛盾が発生してしまう.入力データ内で重要であるべき単語を抽出できないという問題が発生する.そこで,あらかじめ様々な単語に対してDFの値を算出することで対応する.DFの値は入力データとは別に新聞記事群を用意し,新聞記事群での単語の出現回数から算出する.また,入力データ内で出現するが新聞記事群では出現しない単語があった場合には,DF=1として算出する.

s112054 2017-03-03