概念ネットワーク構築の提案手法

先行研究では,単にTF-IDF値の大きい順に単語をネットワークに表示させていたため,よく似た単語であっても離れて出現することがあった.この一例を図3.2に示す.図3.2では下線で印をつけた,「端末」「機器」「ディスプレー」「測定機」といった似た意味を持つ単語が離れて出現して,情報のまとまりがつかみづらいネットワークになっている.

Figure 3.2: よく似た単語が離れて出現しているネットワークの例
3#3

そこで本研究では,2.2節で述べた従来のネットワーク構築法に,2.4節で述べたテーマ限定抽出法を導入したものに,同種の単語が出やすくなるようにした概念ネットワークの構築方法を提案する.以下にその手順を示す.

手順1
Word2vecの単語のクラスタリング機能を用いて,単語をクラスタ番号ごとにまとめる.
手順2
2.2節の手順2を行った後,すでにネットワークに出現している単語を除外する.
手順3
2.2節の手順3と同様の作業を行い,得られたノード候補の単語のTF-IDF値を計算する.
手順4
TF-IDF値を計算した後にTF-IDF値の大きい順に単語を並べ,各単語のクラスタ番号を取り出し,クラスタ番号ごとに単語をまとめる.
手順5
クラスタ番号が同じ単語ごとにTF-IDF値を計算し,TF-IDF値が大きい順にクラスタ番号を並べる.
手順6
手順5で求めたTF-IDF値が上位5位までのクラスタ番号を持つ単語を抜き出し,上位のクラスタ番号に所属する単語から順に5個までネットワークに表示させる.

このうち,手順5で述べたTF-IDF値の計算方法として,TF-IDF合計値法とTF-IDF最大値法の2通りを提案する. TF-IDF合計値法は,クラスタ番号が同じ単語ごとにそれらの単語のTF-IDF値を足し,その合計値上位5位までのクラスタ番号に所属する単語をネットワークに表示させる方法である. TF-IDF最大値法は,クラスタ番号が同じ単語ごとにそれらの単語のTF-IDF値の最大の値を探し,その最大値上位5位までのクラスタ番号に所属する単語をネットワークに表示させる方法である.

この2つの手法の計算例をノード候補の単語とそのTF-IDF値が図3.3のとおりであると仮定して説明する.

このとき,TF-IDF合計値法の場合では,クラスタ番号2455が22.1,クラスタ番号2423が21.3,クラスタ番号2703が9.7となり,「ビデオカメラ」「レンズ」「スマートフォン」「パソコン」「市場」の順番に表示される. 一方,TF-IDF最大値法の場合では,クラスタ番号2455が13.5,クラスタ番号2423が17.7,クラスタ番号2703が9.7となり,「スマートフォン」「パソコン」「ビデオカメラ」「レンズ」「市場」の順番に表示される.


Figure 3.3: ノード候補の一例
4#4