藤原ら [1]は Wikipedia の城に関するページ(対象データ) を抽出し,その中から城に関する重要情報を CaboCha(固有表現抽出ツール) を用いた固有表現抽出に基づく手法とALAGIN の上位下位知識 に基づく手法の2 手法で抽出した.対象データからCaboCha を用いて,「人名」「地名」「組織名」に分類された語句を抽出し表にまとめた.同様に上位下位知識を用いて対象データで下位語の頻度分析を行い,頻度が高かった下位語の上位語を重要項目とした.対象データで重要項目の下位語を取り出し,表にまとめていた.
宮崎ら [4]は遠距離教師あり学習(distant supervision)を用いて,Wikipediaから得た用語をもとにコーパスに自動でアノテーションすることで専門用語を抽出する手法を行っていた.
近藤ら [5]の研究では大規模コーパスへの網羅的・系統的な語義情報付与を目的とした、分類語彙表・UniDic見出し対応表の構築を行っていた.
Akanoら [2]の研究ではWikipediaから抽出した事柄を含むページのデータのみで単語クラスタリングを行っているが,本研究ではWikipedia全ページを利用して単語クラスタリングを行う.単語クラスタリングを利用するデータの違いから本研究は新規性があると考える.
藤原ら [1]と宮崎ら [4]の研究はWikipediaのページを利用して表生成を行っていた.しかし,表抽出の方法が違うため新規性があると考える.
近藤ら [5]の研究は分類語彙表の対応表を用いた大規模コーパスへの網羅的な語義情報付与を目的としている.本研究は情報抽出を目的として分類語彙表を利用する.