カバー率の結果

文レベルでの評価の結果,カバー率が最も高いもので「血液型」の列の0.78,最も低いもので「本名」の列の0.04であった.結果が列ごとで異なってくる理由は,2回目のクラスタリング結果に依存するためであると考える.

データ「血液型」の列のクラスタリング結果を表6.2.1,表6.2.2に示す. 2つの表共に,綺麗にクラスタリングされており,統一感があるため,テンプレートのカバー率も高い結果となった.


Table 6.2.1: データ1での「血液型」の列のクラスタリング結果
75#75



Table 6.2.2: データ2での「血液型」の列のクラスタリング結果
76#76


次に結果の悪かった「卒業」の列のクラスタリング結果を,表6.2.3,表6.2.4に示す.

データ1ではクラスタ数が3つとなっているが,データ2では5つとなっている.また,データ2の方は「卒業」という単語が独立して1つのクラスタとなっているが,データ1の結果では学校の名前と「卒業」が一緒にクラスタリングされている場合が多く,このクラスタリング結果の違いが再現率の低下に直結している.


Table 6.2.3: データ1での「卒業」の列のクラスタリング結果
77#77



Table 6.2.4: データ2での「卒業」の列のクラスタリング結果
78#78