カバー率の結果

文レベルでの評価の結果，カバー率が最も高いもので「血液型」の列の0.78，最も低いもので「本名」の列の0.04であった．結果が列ごとで異なってくる理由は，2回目のクラスタリング結果に依存するためであると考える．

データ「血液型」の列のクラスタリング結果を表6.2.1，表6.2.2に示す． 2つの表共に，綺麗にクラスタリングされており，統一感があるため，テンプレートのカバー率も高い結果となった．

**Table 6.2.1:** データ1での「血液型」の列のクラスタリング結果
75#75

**Table 6.2.2:** データ2での「血液型」の列のクラスタリング結果
76#76

次に結果の悪かった「卒業」の列のクラスタリング結果を，表6.2.3，表6.2.4に示す．

データ1ではクラスタ数が3つとなっているが，データ2では5つとなっている．また，データ2の方は「卒業」という単語が独立して1つのクラスタとなっているが，データ1の結果では学校の名前と「卒業」が一緒にクラスタリングされている場合が多く，このクラスタリング結果の違いが再現率の低下に直結している．

**Table 6.2.3:** データ1での「卒業」の列のクラスタリング結果
77#77

**Table 6.2.4:** データ2での「卒業」の列のクラスタリング結果
78#78