従来手法との比較

従来手法ではWikipedia全データを用いて,人手でクラスタスー数2000を設定してk $-$ means法を利用してクラスタリングする.このクラスタリングの結果と処理したい文書を比較して,重要な情報が含まれている表を作る.この方法の欠点は直接文書のデータでクラスタリングするのではなくて, Wikipedia全データでクラスタリングする.クラスタリング数も事前に設定し,最適なクラスター数になっていない可能性がある.そして,列の重要性が列にある単語の延数で判断する.この方法で列の重要性を判断すると,重要でない列を重要と判断する可能性が高い.最終的に作成された表に空欄が多い,重要でない列が多く現れる,一つの列に一つの単語だけが複数回現れるといった欠点がある.本研究ではWikipedia全データを用いてクラスタリングするのではなくて,直接文書データを用いてクラスタリングする.クラスタリングする時も最適なクラスタリング数でクラスタリングする.列の重要性もカバー率と密集度で計算する.

本研究ではF値で結果を評価する. F値は適合率と再現率の調和平均である.結果を見ると,従来手法の赤野らの手法では精度が全体的に低い.最低値が0.10,最高値が0.39,平均は0.19である. Silhouette法で最適なクラスター数を計算して,クラスタリングの結果では最低値0.37,最高値は0.75,平均は0.63である, UpperTail法の最低値,最高値,平均値は0.34,0.80,0.63である.岡崎の情報のカバー率と密集度で最適なクラスター数を計算する方法では最低値,最高値,平均値が0.32,0.90,0.66である.従来手法の方法と提案手法の最適なクラスター数と列の重要度を用いて重要な情報を抽出する方法と比べて,全体的に性能が低い.