はじめに

近年,ウェブ上に蓄積された膨大な電子文書から情報を得る機会が増えている. これをうけ,電子文書に含まれる情報の取捨選択を効率的にするための様々な手法が研究されている. 吉谷ら[1]は,電子文書から人物のプロフィールに関する情報を固有表現抽出と情報統合の手法を利用して抽出した. 平尾ら[2]は,複数文書を対象に,各文書に共通する単語やタイトルに出現する固有表現を素性としてSVMによる文のランキングを行い,重要文を抽出する複数文書要約を行った. これらの研究では対象となる文書で重要と思われる情報を抽出しているが,人によって必要とする情報は異なる. また,抽出されなかった情報の中にも有用な情報が埋もれている可能性がある.

そこで,抽出する情報を限定することなく,文書に含まれる情報を種類別に表に整理する手法[3]を過去に提案した. ここで複数の文書とは,同じ種類の文書を集めたものである. 例えば異なる機種のスマートフォンの新製品記事に含まれる「メーカー」や「価格」などの情報を種類別に表に整理する. このように同種の複数の文書の情報を種類別に表に整理することは,情報の取捨選択に加え,文書間で情報を比較する際にも役立つ. この研究では,同種の複数の文書に含まれる情報を文単位で抽出し,情報を$X$-means法[4][5]というクラスタリング手法によって分類した結果を行を文書,列をクラスタとする表に整理した.本稿ではこの手法を従来手法と呼ぶ. $X$-means法とは$K=2$での$K$-means法によるクラスタリングを繰り返しながら,BICという指標を基に最適なクラスタ数を自動で推定するクラスタリング手法であり,人手でクラスタ数(分類先の個数)を指定する必要がない. しかし,$X$-means法によって推定されたクラスタ数は最適なクラスタ数に比べ小さい傾向にあり,この結果を整理した表は情報が1つの列にまとまりすぎており,表の精度が低いという問題があった.

そこで,本研究ではこの問題を改善するために,表の埋まり具合と情報の密集度のバランスを最適にする方法でクラスタ数を推定し,この結果を表に整理する手法を提案する. 提案手法では,まず,情報を階層クラスタリングでクラスタリングする. 次に,階層クラスタリングのクラスタ数が$1〜n$までの結果をそれぞれ表に整理する. そして,クラスタ数(列数)が$1〜n$での各表について,表の埋まり具合と,整理された情報の密集度を求める. この二つの指標のバランスが最適になるときのクラスタ数を最適なクラスタ数と推定する. 最後に推定された最適なクラスタ数での結果を表に整理する. 本研究では以上の手法により,表の精度の向上を試みる.