また,各手法ごとに有意差を調べるため両側検定のt検定を20対のデータで行った.20個のテーマキーワードにおいて,各手法で役に立つと判断した単語の個数と,見やすくなっていると判断した部分の個数を比較した.ここで,有意水準は5%である.p値を表4.4に示す.
テーマキーワード | 従来手法 | TF-IDF合計値法 | TF-IDF最大値法 |
5G | 6 | 5 | 1 |
がん | 2 | 1 | 4 |
イギリス | 1 | 0 | 1 |
オリンピック | 1 | 2 | 1 |
パソコン | 3 | 1 | 3 |
ロボット | 3 | 4 | 4 |
安全保障 | 3 | 2 | 2 |
遺跡 | 6 | 5 | 5 |
宇宙 | 4 | 9 | 9 |
映画 | 4 | 9 | 6 |
感染症 | 2 | 3 | 5 |
京都 | 0 | 0 | 0 |
銀河 | 5 | 5 | 5 |
産業構造 | 5 | 3 | 3 |
寺院 | 2 | 3 | 2 |
世界遺産 | 8 | 6 | 4 |
石油 | 1 | 1 | 1 |
台風 | 1 | 2 | 2 |
独立 | 5 | 2 | 2 |
廃線 | 1 | 2 | 1 |
平均値 | 3.2 | 3.3 | 3.1 |
テーマキーワード | 従来手法 | TF-IDF合計値法 | TF-IDF最大値法 |
5G | 1 | 2 | 0 |
がん | 0 | 0 | 0 |
イギリス | 1 | 5 | 5 |
オリンピック | 1 | 3 | 2 |
パソコン | 0 | 1 | 1 |
ロボット | 0 | 3 | 2 |
安全保障 | 1 | 4 | 4 |
遺跡 | 1 | 5 | 5 |
宇宙 | 2 | 4 | 2 |
映画 | 0 | 1 | 1 |
感染症 | 1 | 3 | 3 |
京都 | 0 | 0 | 2 |
銀河 | 1 | 1 | 1 |
産業構造 | 1 | 4 | 1 |
寺院 | 3 | 6 | 4 |
世界遺産 | 1 | 3 | 3 |
石油 | 1 | 6 | 7 |
台風 | 1 | 2 | 1 |
独立 | 4 | 5 | 6 |
廃線 | 3 | 3 | 1 |
平均値 | 1.2 | 3.1 | 2.6 |
テーマキーワード | 従来手法 | TF-IDF合計値法 | TF-IDF最大値法 |
5G | 32 | 40 | 20 |
がん | 75 | 42 | 52 |
イギリス | 56 | 64 | 60 |
オリンピック | 31 | 42 | 34 |
パソコン | 48 | 44 | 59 |
ロボット | 56 | 34 | 48 |
安全保障 | 28 | 35 | 25 |
遺跡 | 39 | 46 | 48 |
宇宙 | 61 | 77 | 58 |
映画 | 39 | 48 | 49 |
感染症 | 43 | 48 | 53 |
京都 | 65 | 18 | 55 |
銀河 | 55 | 29 | 29 |
産業構造 | 56 | 48 | 40 |
寺院 | 65 | 89 | 63 |
世界遺産 | 54 | 48 | 44 |
石油 | 42 | 46 | 50 |
台風 | 30 | 44 | 40 |
独立 | 67 | 69 | 57 |
廃線 | 30 | 36 | 31 |
平均値 | 49 | 47 | 46 |
従来手法と合計値法 | 従来手法と最大値法 | 合計値法と最大値法 | |
役に立つ単語の個数 | 0.83 | 0.85 | 0.58 |
見やすい部分の個数 | 0.00002 | 0.003 | 0.09 |
表4.1より,役に立つ単語の個数の平均は,従来手法の3.2個に対して,TF-IDF合計値法が3.3個,TF-IDF最大値法は3.1個とほぼ同数であった.また,表4.4からも役に立つ単語の個数については各手法間で有意差がないことが分かる. 表4.2より,見やすい部分の個数の平均は,従来手法が1.2個であるのに対して,TF-IDF合計値法が3.1個,TF-IDF最大値法が2.6個といずれも上回った.さらに,表4.4より,見やすい部分の個数については従来手法とTF-IDF合計値法の間,従来手法とTF-IDF最大値法の間で有意差があった. この結果より,TF-IDF合計値法が見やすさの観点からもっともよい方法であると考える.
本実験の評価方法では役に立つ単語の個数と見やすくなった部分の個数を数えているため,ネットワークの出現単語数が多いほど有利になると考えた,そこで,各ネットワークに出現している単語数を数えた. 表4.3より,各手法で構築したネットワークの出現単語の平均は,従来手法が49個,TF-IDF合計値法が47個,TF-IDF最大値法が46個と従来手法が最も多かったが,ほとんど同じ条件で実験が行えていると考える.
また,評価の一例としてテーマキーワードを「遺跡」として構築したネットワークを図4.1から図4.3に示す. 従来手法によるネットワークを図4.1に,TF-IDF合計値法を用いたネットワークを図4.2に,TF-IDF最大値法を用いたネットワークを図4.3にそれぞれ示す. また,それぞれの図の下にそのネットワークにおいて役に立つ単語と,似た意味の単語が並び見やすくなっている部分を列挙している.
図4.1,図4.2,図4.3より,役に立つと判断した単語は「パルミラ」や「モスル」といった遺跡のある町や,「ネアンデルタール」や「邪馬台国」といったテーマキーワードである遺跡に関連する語句がどの手法でも表示されていることが分かる.
一方,見やすくなったと判断した部分は,従来手法が「奄美と沖縄」という地名の情報のみであったのに対して,TF-IDF合計値法とTF-IDF最大値法では,「博物館と美術館」や「ネアンデルタールとサピエンス」といった地名以外の情報のまとまりを得ることができた.
5#5
役に立つ単語:ユネスコ,パルミラ,邪馬台国,キリシタン,クルナ,ネアンデルタール 見やすくなっている部分:奄美と沖縄 |
6#6
役に立つ単語:邪馬台国,パルミラ,ネアンデルタール,ユネスコ,モスル 見やすくなっている部分:年代と時代,博物館と美術館,ネアンデルタールとサピエンス,鋳造と鋳型,パルミラとモスル |
7#7
役に立つ単語:ユネスコ,パルミラ,モスル,ネアンデルタール,邪馬台国 見やすくなっている部分:博物館と美術館,時代と年代,ネアンデルタールとサピエンス,鋳造と鋳型,パルミラとモスル |