概要

近年,インターネット上の文書から情報を取捨選択することが多い.しかし,文書の量は膨大であり,情報の取捨選択を効率的にする手法が求められている.

過去に岡FA11ら[1]は,文書群から重要な情報を文単位で抽出し,表の形に整理する手法を提案した.文書群から文単位で抽出して文をベクトルで表現した後,得られたベクトルをX-means法[2]でクラスタリングし,文書ごとに表に整理し,表示していた.ここで文書群とは,同じ種類の文書を集めたものである.例えば,異なる人に関する情報の記事において,「人名」や「生年月日」などの情報が種類別に表に整理される.このように,同種の文書群の情報が種類ごとに整理されることで,情報の取捨選択が効率的になり,文書間の情報の比較にも役に立つ.さらに,岡FA11ら[3]はクラスタリング手法の改案として階層クラスタリングによる表整理の手法を提案した.

そこで本研究ではこの技術の「文書群の情報が種類ごとに整理される」という点に着目し,大量の文書群からのテンプレート生成する手法を提案する.例えば,人に関する情報をクラスタリングして表生成する場合,「人名」や「生年月日」といった各重要な情報がクラスタとして分けられる.この重要な情報の各クラスタを変数に置き換えれば,「人名」と「生年月日」の情報が入った文を生成する時に,変数「人名」,変数「生年月日」を任意の単語に変えることで,様々なパターンの文が生成できるため,文書作成支援への応用に期待ができる.提案手法ではまず,文書群を階層クラスタリングでクラスタリングし,表に整理する.このクラスタリング結果について各列をテンプレートの変数の各グループとする.一列目に含まれる単語を変数X1、2列目をX2...と置換し元文に当てはめることでテンプレートが作成され,本研究ではこのテンプレート生成を試みる.

150件の記事の入力データを2種類用意し実験を行った結果,文章レベルでの評価結果は,データ1を正解データ,データ2を実験データとした時のカバー率とデータ2を正解データ,データ1を実験データとした時のカバー率がそれぞれ0.13,0.11と共に低い結果となった.また,文レベルでの評価の結果,カバー率が最も高いもので「血液型」の列の0.78,最も低いもので「本名」の列の0.04となり,一部ではカバー率の高いテンプレートが確認できた.