おわりに

過去の単語レベルで重要な情報を抽出する赤野ら研究[#!AKANO!#]ではWikipedia全データを用いて,人手でクラスター数を2,000で設定して, k-means法でクラスタリングする.このクラスタリングの結果と処理したい文書データを比較して,重要な情報を表に整理する.過去の研究では最終的に作成された表に空欄が多く, F値で評価すると,精度が低いという問題がある.

本研究では2回目のクラスタリングをすることで,最適なクラスタ-数と情報の重要度を計算して,過去の研究と比べて,重要な情報を含む,精度が高い表を作る.本研究では最適なクラスター数を計算する方法として,岡崎らの研究成果, Silhouette法, UpperTail法を用いる.この三つの計算方法を用いて作った結果はよく似ている,2回目の文レベルでクラスタリングする際に文の中に単語の数が少ないのが原因と考えられる.そして,この三つの結果の精度の平均は0.70に届かないが,過去の研究と比べて,精度が高くなり,提案手法の精度の最低値も0.30以上で,部分的に重要な情報が抽出されたと見える.提案手法の最高値では0.90であり,重要な情報がほとんど抽出された.提案手法の有効性を確認することができる.