文レベルのテンプレートの評価方法

文レベルでのテンプレートの評価方法を説明する.

  1. 2つのデータで1回目のクラスタリング結果の表について,内容が共通する列に注目する.2種類のデータでそれぞれ生成された表について,列の順番はそれぞれのクラスタリング結果において式2.14のクラスタの重要度の順番に並んでいるため,2つの表で順番が異なる.そのため評価するクラスタの内容の対応付けを改めて設定する必要がある.図5.1にて例を示す.

    データ1で生成された表に「首都」,「面積」,「人口」,「言語」の4列が存在し,データ2で生成された表に「首都」,「人口」,「首相」の3列が存在する場合,「首都」と「人口」の列が共通しているため,この2列からそれぞれ生成されたテンプレートを評価の対象とする.

    Figure 5.1: 評価方法の例
    64#64  

  2. 内容が共通している列でそれぞれ生成されたテンプレートについて,データ1を正解データ,データ2を実験データとした時のカバー率と,データ2を正解データ,データ1を実験データとした時のカバー率をそれぞれ式5.1で求める.
  3. 2を各列で行う.