データ「血液型」の列のクラスタリング結果を表6.2.1,表6.2.2に示す. 2つの表共に,綺麗にクラスタリングされており,統一感があるため,テンプレートのカバー率も高い結果となった.
次に結果の悪かった「卒業」の列のクラスタリング結果を,表6.2.3,表6.2.4に示す.
データ1ではクラスタ数が3つとなっているが,データ2では5つとなっている.また,データ2の方は「卒業」という単語が独立して1つのクラスタとなっているが,データ1の結果では学校の名前と「卒業」が一緒にクラスタリングされている場合が多く,このクラスタリング結果の違いが再現率の低下に直結している.