next up previous contents
Next: 空欄指摘における関連研究 Up: 関連研究 Previous: 関連研究   目次

情報抽出における関連研究

Akanoら [2]はword2vec [3]内にある「単語のクラスタリング」を利用して,抽出データに関連した重要項目の選定を行っていた.実験環境と単語のクラスタリングを利用した表生成の手順を以下に示す.

藤原ら [1]は Wikipedia の城に関するページ(対象データ) を抽出し,その中から城に関する重要情報を CaboCha(固有表現抽出ツール) を用いた固有表現抽出に基づく手法とALAGIN の上位下位知識 に基づく手法の2 手法で抽出した.対象データからCaboCha を用いて,「人名」「地名」「組織名」に分類された語句を抽出し表にまとめた.同様に上位下位知識を用いて対象データで下位語の頻度分析を行い,頻度が高かった下位語の上位語を重要項目とした.対象データで重要項目の下位語を取り出し,表にまとめていた.

宮崎ら [4]は遠距離教師あり学習(distant supervision)を用いて,Wikipediaから得た用語をもとにコーパスに自動でアノテーションすることで専門用語を抽出する手法を行っていた.

近藤ら [5]の研究では大規模コーパスへの網羅的・系統的な語義情報付与を目的とした、分類語彙表・UniDic見出し対応表の構築を行っていた.

Akanoら [2]の研究ではWikipediaから抽出した事柄を含むページのデータのみで単語クラスタリングを行っているが,本研究ではWikipedia全ページを利用して単語クラスタリングを行う.単語クラスタリングを利用するデータの違いから本研究は新規性があると考える. 藤原ら [1]と宮崎ら [4]の研究はWikipediaのページを利用して表生成を行っていた.しかし,表抽出の方法が違うため新規性があると考える. 近藤ら [5]の研究は分類語彙表の対応表を用いた大規模コーパスへの網羅的な語義情報付与を目的としている.本研究は情報抽出を目的として分類語彙表を利用する.


akano hokuto 2018-03-06