はじめに

近年,インターネットの発展と伴い,ネット上の情報が急速的に増えている.このような膨大な情報から重要な情報を抽出して,整理する研究が重要になっている.このような重要な情報は情報検索する際に重要な単語をキーワードとして使うこともできる.赤野らの研究[#!AKANO!#]ではWikipedia全データを用いて,単語レベルで重要な情報を文書から抽出して,表に整理する.この研究ではWikipedia全データを単語レベルで分割して,これらの単語をk-means法でクラスタリングし,クラスタリングの結果と処理したい文書を比較し,重要な単語レベルの情報の種類を人手で選択して,表に整理する.しかし,この研究では人手でクラスター数を決めていて,最適なクラスター数になっておらず,情報の重要度も計算していなく,人手で決める必要があるという問題がある.岡崎らの研究[#!OKAZAKI!#]では文レベルで重要な情報を文章から抽出し,表に整理する.岡崎らの研究[#!OKAZAKI!#]ではデータの密集度とカバー率を使って,クラスタリング際に最適なクラスター数とクラスターの重要度を計算して,重要な文レベルの情報を表に整理する.文レベルで重要な情報を表に整理する場合,文が長くて,重要な情報が見づらい状況がある.本研究では岡崎らの研究成果[#!OKAZAKI!#]を使って,赤野らの研究の問題点を解決することで,単語レベルで重要な情報を文書から抽出し,表に整理する.本研究での主張点は以下の3点である.

新規性

赤野らの研究[#!AKANO!#]は人手でクラスタ数1000で設定して,人手で重要な列を選択する.本研究では自動でクラスタ数を決定して,重要度の順に列を自動的に並べ替える.
有用性

赤野らの研究[#!AKANO!#]では人手で重要な列を選択する必要がある.本研究では手作業がなくても,自動的に重要な列を選択することができる.
性能

本研究で整理した表の性能をF値で評価すると,平均値は0.64である.F値で赤野らの研究[#!AKANO!#]を評価すると,その平均値は0.21である.