今後の課題

文章レベルでの評価結果は,データ1を正解データ,データ2を実験データとした時のカバー率とデータ2を正解データ,データ1を実験データとした時のカバー率がそれぞれ0.13,0.11と共に低い結果となった.また,文レベルでの評価の結果,カバー率が最も高いもので「血液型」の列の0.78,最も低いもので「本名」の列の0.04であった.カバー率の向上には,クラスタリングによる表生成の精度の向上が課題と考える.そのために,クラスタリング手法の改良や,形態素解析のツールを最適なものを使用するなどの工夫が必要である.

また,現在は名詞を全てテンプレートの変数としているが,頻度の高い単語については変数化せずそのままにするなど文書作成支援に繋がるようなテンプレートの生成ができるよう,手法の改良が必要である.

テンプレート自体の精度についても本研究では評価していないため精度の評価の調査と,要約文の生成などに応用ができるかの調査も行いたいと考える.