本実験は2回クラスタリングをすることで(1回目は文レベルのクラスタリング, 2回目は単語クラスタリング),重要な情報を文書から抽出する.一つの正解テーブルは1回目のクラスタリングの結果の表の一列(この列は人手で選択する)に基づいて,人手で作成する.人手でこの列について重要な情報の種類を考えて,人が重要と思うデータの種類と関連しているデータを列から抽出して,正解テーブルを作る.具体例を示す.正解テーブルを作る時の根拠, 1回目のクラスタリングの結果の表を表と表に示す.この1回目のクラスタリングの表に基づいて作った正解テーブルを表と表に示す.具体例の実験データは毎日新聞から抽出した交通事故に関するデータである.
この表と表は毎日新聞の地震記事を利用して,1回目のクラスタリング(文レベル)の結果の一部である.表を使って作った表は表に示す.表を使って作った表は表に示す.
表は表に基づいて作った正解テーブルである.表は文書から事故の発生時間や場所と車のタイプなどの情報が含まれる文を抽出した.正解テーブルを作る時,これらの重要な情報の種類(事故の発生時間や場所と車のタイプ)を考えて,表を作った.