実験データ

関連性のあるデータを得るために,大量のデータに対して,K-means法でクラスタ数を2500と指定してクラスタリングを行い,その中から密集度が高く件数も適度に多いクラスタを選択して実験データとする.今回はWikipediaの記事75,249件に対してクラスタ数2,500でクラスタリングをかける.その結果のうち記事561件,密集度0.941のクラスタ(主に芸能人についての記事が集まったクラスタ)からランダムで300件を抽出した.ここで,密集度とはクラスタ内の情報の関連具合を表したものであり,似たような情報が詰まったクラスタは密集度が高くなる.

ここで,片方を正解データ,もう片方を実験データとして相互に性能を比較するために,この300件を150件ずつ分割し,それぞれ入力データとした.また,記事の内容は全文ではなく,その記事の概要部分に該当する初めの3行分を抽出している.以下に入力データの例を示す.


Table 4.1.1: Wikipediaのデータの例(下線部の内容を実験に用いる)
60#60