Upper Tail 法を用いた階層クラスタリングの考察

Upper Tail 法を用いた階層クラスタリングの評価結果は,0.58と従来手法を上回ったものの,提案手法,シルエット分析を用いた方法よりは低い値となった. Upper Tail 法は設定した$k$の値に大きく影響される. 今回は$k$を1として実験を行ったが,この値の適切さを調べるために,$k$の値を0〜4の範囲で0.1刻みで変化させて実験を行った.15の複数文書での結果をそれぞれ図5.3,図5.4,図5.5,図5.6,図5.7,図5.8,図5.9,図5.10,図5.11,図5.12,図5.13,図5.14,図5.15,図5.16,図5.17に示す. 結果から,今回設定した$k$の値は新聞記事やWikipediaから抽出した複数文書に対しては概ね適切であったと思われる. 一方で,新製品記事に関する複数文書については,適切な$k$の値は「スマートフォンに関する新製品記事」を除く4種類の複数文書で0.5前後であり,今回設定した$k$の値は適切ではなかった. これらの複数文書の特徴として含まれる文の平均文字数が多いことが挙げられる. 本研究では文ベクトルを含まれる単語ベクトルの総和として算出していることから,文字数の多い文では,文をよく表す重要な単語が他の多くの単語に埋もれてしまい,精度の低い文のベクトルが算出されてしまう. そのため,これらの複数文書で適切な$k$の値が設定できなかった原因は文のベクトルの精度が低いことが影響していると考えられる. よって,Upper Tail 法での最適な$k$の値を設定する際は,想定される1群のデータ数と同時に文の平均文字数から推定される文ベクトルの精度も考慮する必要があると考えられる.

-4pt

図: 強盗に関する新聞記事での結果
\includegraphics[width=16cm]{.././EPS/goutou_upper_tail.eps}
図: 外為・株式に関する新聞記事での結果
\includegraphics[width=16cm]{.././EPS/kawase_upper_tail.eps}
図: 地震に関する新聞記事での結果
\includegraphics[width=16cm]{.././EPS/jisin_upper_tail.eps}
図: 交通事故に関する新聞記事での結果
\includegraphics[width=16cm]{.././EPS/traffic_upper_tail.eps}
図: リコールに関する新聞記事での結果
\includegraphics[width=16cm]{.././EPS/recall_upper_tail.eps}

図: スマートフォンに関する新製品記事での結果
\includegraphics[width=16cm]{.././EPS/smartphone_upper_tail.eps}
図: テレビに関する新製品記事での結果
\includegraphics[width=16cm]{.././EPS/tv_upper_tail.eps}
図: カメラに関する新聞記事での結果
\includegraphics[width=16cm]{.././EPS/camera_upper_tail.eps}
図: ロボット掃除機に関する新製品記事での結果
\includegraphics[width=16cm]{.././EPS/cleaner_upper_tail.eps}
図: エアコンに関する新聞記事での結果
\includegraphics[width=16cm]{.././EPS/aircon_upper_tail.eps}

図: 城に関するWikipediaの記事での結果
\includegraphics[width=16cm]{.././EPS/siro_upper_tail.eps}
図: 恐竜に関するWikipediaの記事での結果
\includegraphics[width=16cm]{.././EPS/dinasour_upper_tail.eps}
図: 力士に関するWikipediaの記事での結果
\includegraphics[width=16cm]{.././EPS/sumou_upper_tail.eps}
図: 山に関するWikipediaの記事での結果
\includegraphics[width=16cm]{.././EPS/mountain_upper_tail.eps}
図: 野球チームに関するWikipediaの記事での結果
\includegraphics[width=16cm]{.././EPS/mlb_upper_tail.eps}