おわりに

本研究では,階層クラスタリングによる表生成の技術を用いてテンプレートの生成を行った.

提案手法では,文書群に対して階層クラスタリングを行い表を自動で作成し,文章レベルのテンプレート生成では,その表の各列をテンプレートの変数のグループとしてその列に含まれる単語は変数となるよう原文に置換してテンプレートを生成した.文レベルでのテンプレートでは,最初に出力された表中の文を全て名詞のみの状態にし,各列で再度クラスタリングを行い,出力された表の各列をテンプレートの変数のグループとしてその列に含まれる単語は変数となるよう原文に置換してテンプレートを生成した.

150件の記事の入力データを2種類用意し実験を行った結果,文章レベルでのテンプレートのカバー率の平均は0.12,文レベルでのテンプレートのカバー率の平均は0.39であった.結果はあまり高くないものの,一部の列のテンプレートのカバー率は0.78と高いものもあり,有効なテンプレートが生成できたと考える.

クラスタリング時の形態素解析で分割のされ方が異なる問題や,現在は名詞部分を全て変数としているが,重要部分だけを変数とするなど,テンプレートの生成方法の改良が今後の課題と考える.また,階層クラスタリングの分類の精度の向上も今後の課題である.