概要

近年,インターネットの発展と伴い,ネット上の情報が急速的に増えている.このような膨大な情報から重要な情報を抽出して,整理する研究が重要になっている.このような重要な情報は情報検索する際に重要な単語をキーワードとして使うこともできる.赤野らの研究[#!AKANO!#]ではWikipedia全データを用いて,単語レベルで重要な情報を文書から抽出して,表に整理する.この研究ではWikipedia全データを単語レベルで分割して,これらの単語をk-means法でクラスタリングし,クラスタリングの結果と処理したい文書を比較し,重要な単語レベルの情報の種類を人手で選択して,表に整理する.しかし,この研究では人手でクラスター数を決めていて,最適なクラスター数になっておらず,情報の重要度も計算していなく,人手で決める必要があるという問題がある.岡崎らの研究[#!OKAZAKI!#]では文レベルで重要な情報を文章から抽出し,表に整理する.岡崎らの研究[#!OKAZAKI!#]ではデータの密集度とカバー率を使って,クラスタリング際に最適なクラスター数とクラスターの重要度を計算して,重要な情報を表に整理する.本研究では岡崎らの研究成果[#!OKAZAKI!#]を使って,赤野らの研究の問題点を解決することで,単語レベルで重要な情報を文書から抽出し,表に整理する.本研究では提案手法と15種類の複数文書を用いた実験の結果,赤野らの研究[#!AKANO!#]ではf値の平均値は0.21であり,提案手法では0.60以上であり,提案手法の有効性が確認できた.