役に立つ単語の個数に関する考察

提案手法の方が従来手法に比べて,役に立つ単語の個数が従来手法より少ないのは,TF-IDF合計値法とTF-IDF最大値法を用いた際に,従来手法で得られていた情報,つまり単語を表示させられないために,役に立つ単語が減ってしまった場合があると考えられる. 一例として,4.1.3節で示した「遺跡」をテーマキーワードとして構築したネットワークでは,図4.1の従来手法では出現していた「クルナ」という単語が,図4.2のTF-IDF合計値法で構築したネットワークと図4.3のTF-IDF最大値法で構築したネットワークでは出現していない.ここで例として挙げた「クルナ」はバングラデシュの遺跡が多い地域のことである.

一方,提案手法の方が従来手法に比べて,役に立つ単語の個数が従来手法より多いのは,従来手法で得ることができなかった単語が,同じ単語集合に所属する,より頻繁に新聞で取り上げられていた単語につられる形で,出現するようになったからだと考えられる. 一例として,テーマキーワードを「宇宙」として従来手法で構築したネットワークを図5.1に示し,TF-IDF合計値法で構築したネットワークを図5.2に示し,TF-IDF最大値法で構築したネットワークを図5.3に示す.また,それぞれの図の下にそのネットワークにおいて役に立つと判断した単語を列挙している. 役に立つと判断した単語の個数は図5.1の従来手法の4個に比べ,図5.2のTF-IDF合計値法と図5.3のTF-IDF最大値法の方がそれぞれ9個と多い. その一因として,図5.1では小惑星が「イトカワ」しか出ていないが,図5.2と図5.3では,「イトカワ」とともに「ベンヌ」が出現している.このように,提案手法では,同じ単語集合に所属している単語につられる形で,従来手法では現れなかった単語が出現することがある. このことによって,従来手法より提案手法の方が,役に立つと判断した単語の個数が多くなったと考える.

また,TF-IDF合計値法は,テーマキーワードによっては,人名や日付の情報を多く表示させ,役に立つと判断できる単語が少ないネットワークもあった.そのようなネットワークの一例を図5.4に示す.図5.4は「京都」をテーマキーワードとして,TF-IDF合計値法でネットワークを構築したものである. 図5.4のとおり,4月や3月という月の情報のみが出ており,それらの月で何があったのかなどの情報を得られないネットワークとなった. この原因は,「3月」「4月」といった単語1つ1つのTF-IDF値は小さいが,それらの合計を計算すると他の単語集合のTF-IDF値の合計値よりも大きくなってしまうからだと考えられる.