実験結果

従来手法と提案手法で構築したネットワークの評価について,有用性の観点から評価した結果を表4.1に示す.また,見やすさの観点から評価した結果を表4.2に示す. 表4.3に本実験で用いたネットワークのテーマキーワードを除いた単語数を示す.

また,各手法ごとに有意差を調べるため両側検定のt検定を20対のデータで行った.20個のテーマキーワードにおいて,各手法で役に立つと判断した単語の個数と,見やすくなっていると判断した部分の個数を比較した.ここで,有意水準は5%である.p値を表4.4に示す.


Table 4.1: 各テーマキーワードと役に立つ単語の個数
テーマキーワード 従来手法 TF-IDF合計値法 TF-IDF最大値法
5G 6 5 1
がん 2 1 4
イギリス 1 0 1
オリンピック 1 2 1
パソコン 3 1 3
ロボット 3 4 4
安全保障 3 2 2
遺跡 6 5 5
宇宙 4 9 9
映画 4 9 6
感染症 2 3 5
京都 0 0 0
銀河 5 5 5
産業構造 5 3 3
寺院 2 3 2
世界遺産 8 6 4
石油 1 1 1
台風 1 2 2
独立 5 2 2
廃線 1 2 1
平均値 3.2 3.3 3.1


Table 4.2: 各テーマキーワードと似た意味の単語が並んで、見やすくなっている部分の数
テーマキーワード 従来手法 TF-IDF合計値法 TF-IDF最大値法
5G 1 2 0
がん 0 0 0
イギリス 1 5 5
オリンピック 1 3 2
パソコン 0 1 1
ロボット 0 3 2
安全保障 1 4 4
遺跡 1 5 5
宇宙 2 4 2
映画 0 1 1
感染症 1 3 3
京都 0 0 2
銀河 1 1 1
産業構造 1 4 1
寺院 3 6 4
世界遺産 1 3 3
石油 1 6 7
台風 1 2 1
独立 4 5 6
廃線 3 3 1
平均値 1.2 3.1 2.6


Table 4.3: ネットワークの単語数
テーマキーワード 従来手法 TF-IDF合計値法 TF-IDF最大値法
5G 32 40 20
がん 75 42 52
イギリス 56 64 60
オリンピック 31 42 34
パソコン 48 44 59
ロボット 56 34 48
安全保障 28 35 25
遺跡 39 46 48
宇宙 61 77 58
映画 39 48 49
感染症 43 48 53
京都 65 18 55
銀河 55 29 29
産業構造 56 48 40
寺院 65 89 63
世界遺産 54 48 44
石油 42 46 50
台風 30 44 40
独立 67 69 57
廃線 30 36 31
平均値 49 47 46


Table 4.4: 著者による評価における有意差検定
  従来手法と合計値法 従来手法と最大値法 合計値法と最大値法
役に立つ単語の個数 0.83 0.85 0.58
見やすい部分の個数 0.00002 0.003 0.09

表4.1より,役に立つ単語の個数の平均は,従来手法の3.2個に対して,TF-IDF合計値法が3.3個,TF-IDF最大値法は3.1個とほぼ同数であった.また,表4.4からも役に立つ単語の個数については各手法間で有意差がないことが分かる. 表4.2より,見やすい部分の個数の平均は,従来手法が1.2個であるのに対して,TF-IDF合計値法が3.1個,TF-IDF最大値法が2.6個といずれも上回った.さらに,表4.4より,見やすい部分の個数については従来手法とTF-IDF合計値法の間,従来手法とTF-IDF最大値法の間で有意差があった. この結果より,TF-IDF合計値法が見やすさの観点からもっともよい方法であると考える.

本実験の評価方法では役に立つ単語の個数と見やすくなった部分の個数を数えているため,ネットワークの出現単語数が多いほど有利になると考えた,そこで,各ネットワークに出現している単語数を数えた. 表4.3より,各手法で構築したネットワークの出現単語の平均は,従来手法が49個,TF-IDF合計値法が47個,TF-IDF最大値法が46個と従来手法が最も多かったが,ほとんど同じ条件で実験が行えていると考える.

また,評価の一例としてテーマキーワードを「遺跡」として構築したネットワークを図4.1から図4.3に示す. 従来手法によるネットワークを図4.1に,TF-IDF合計値法を用いたネットワークを図4.2に,TF-IDF最大値法を用いたネットワークを図4.3にそれぞれ示す. また,それぞれの図の下にそのネットワークにおいて役に立つ単語と,似た意味の単語が並び見やすくなっている部分を列挙している.

図4.1,図4.2,図4.3より,役に立つと判断した単語は「パルミラ」や「モスル」といった遺跡のある町や,「ネアンデルタール」や「邪馬台国」といったテーマキーワードである遺跡に関連する語句がどの手法でも表示されていることが分かる.

一方,見やすくなったと判断した部分は,従来手法が「奄美と沖縄」という地名の情報のみであったのに対して,TF-IDF合計値法とTF-IDF最大値法では,「博物館と美術館」や「ネアンデルタールとサピエンス」といった地名以外の情報のまとまりを得ることができた.

Figure 4.1: テーマキーワードを「遺跡」として従来手法で構築したネットワーク
5#5

役に立つ単語:ユネスコ,パルミラ,邪馬台国,キリシタン,クルナ,ネアンデルタール

見やすくなっている部分:奄美と沖縄

Figure 4.2: テーマキーワードを「遺跡」としてTF-IDF合計値法で構築したネットワーク
6#6

役に立つ単語:邪馬台国,パルミラ,ネアンデルタール,ユネスコ,モスル

見やすくなっている部分:年代と時代,博物館と美術館,ネアンデルタールとサピエンス,鋳造と鋳型,パルミラとモスル

Figure 4.3: テーマキーワードを「遺跡」としてTF-IDF最大値法で構築したネットワーク
7#7

役に立つ単語:ユネスコ,パルミラ,モスル,ネアンデルタール,邪馬台国

見やすくなっている部分:博物館と美術館,時代と年代,ネアンデルタールとサピエンス,鋳造と鋳型,パルミラとモスル