そこで,抽出する情報を限定することなく,文書に含まれる情報を種類別に表に整理する手法[3]を過去に提案した.
ここで複数の文書とは,同じ種類の文書を集めたものである.
例えば異なる機種のスマートフォンの新製品記事に含まれる「メーカー」や「価格」などの情報を種類別に表に整理する.
このように同種の複数の文書の情報を種類別に表に整理することは,情報の取捨選択に加え,文書間で情報を比較する際にも役立つ.
この研究では,同種の複数の文書に含まれる情報を文単位で抽出し,情報を-means法[4][5]というクラスタリング手法によって分類した結果を行を文書,列をクラスタとする表に整理した.本稿ではこの手法を従来手法と呼ぶ.
-means法とは
での
-means法によるクラスタリングを繰り返しながら,BICという指標を基に最適なクラスタ数を自動で推定するクラスタリング手法であり,人手でクラスタ数(分類先の個数)を指定する必要がない.
しかし,
-means法によって推定されたクラスタ数は最適なクラスタ数に比べ小さい傾向にあり,この結果を整理した表は情報が1つの列にまとまりすぎており,表の精度が低いという問題があった.
そこで,本研究ではこの問題を改善するために,表の埋まり具合と情報の密集度のバランスを最適にする方法でクラスタ数を推定し,この結果を表に整理する手法を提案する.
提案手法では,まず,情報を階層クラスタリングでクラスタリングする.
次に,階層クラスタリングのクラスタ数がまでの結果をそれぞれ表に整理する.
そして,クラスタ数(列数)が
での各表について,表の埋まり具合と,整理された情報の密集度を求める.
この二つの指標のバランスが最適になるときのクラスタ数を最適なクラスタ数と推定する.
最後に推定された最適なクラスタ数での結果を表に整理する.
本研究では以上の手法により,表の精度の向上を試みる.