next up previous contents
次へ: その他の関連研究 上へ: Wikipediaからの情報抽出に関する研究 戻る: Wikipediaの記事構造からの上位下位関係抽出   目次

Wikipediaからの連想シソーラス構築プロジェクト

新井らは,リンク共起性解析を用いる手法を提案し, その手法を用いてWikipediaから大規模で高精度な連想シソーラスを構築した[4]. リンク共起性解析は,ある記事内にある他の記事へのリンクの共起性を解析することによって, リンク先記事が表す概念間の関連度を計算する手法である. 本研究では,新井らが提案したリンク共起性解析を参考に, 双方向の関係にある法則名のリンクを機械学習SVMの素性として用いることを提案している.

ここで,新井らが分析したWikipediaのリンク構造の特徴,および,リンク共起性解析について説明する. まず,新井らが分析したWikipediaのリンク構造の特徴を以下に説明する.

  1. Wikipediaの各記事は,説明のテキスト,図 表,そして別の記事に対する多数のリンクで構成され る.Wikipedia は Wiki をベースにしており,簡単に他の概念への リンクを定義できることから,良質な概念どうしのリンクが多いという特徴を持つ.

  2. Wikipedia が高密度なリンク構造を持って いる.新井らは,予備実験として Wikipedia 内におけるリンク数をカウントしたところ,2006 年 9 月の段階で約 380 万ページ(Redirect リンクを含む) に約 8,000 万の内部リンク(Wikipedia 内へのリンク) を抽出し,Wikipedia では閉じられた語彙空間の中で密 なリンク構造を持っているということを確認している.

  3. Wikipedia は最新の幅広い分野の記事が網 羅されており膨大な量のコンテンツが存在するものの, WWW の探索空間に比較するとそのリンク構造はサイ ト内で閉じられているため,現実的な時間での解析が 可能である.
  4. URL によって概念を一意に特定できると いう特徴がある.Wikipedia では URL によって一意 に示される一つの記事(ページ)が一つの単語(概念) を表しており,多義を持つ単語には,意味に応じて別々 の記事が用意されている.

次に,リンク共起性解析を説明する. リンク共起性解析は,リンクの共起性を解析 することによってリンク間(記事間)の関連度を算出す る.リンクの共起とは,単語をリンクとして扱うとい うこと以外,基本的な概念は単語の共起と同様である. つまり,リンクが共起するということは,特定の範囲に おいてある異なる二つのリンクが同時に出現するとい うことである.リンクの共起性解析では,リンクは参照 先 URL が同じなら同じリンクとみなされ,Wikipedia 全体でのリンクの共起性を解析する.ここで,先に述 べたように,Wikipedia におけるリンクは,参照先の 記事を一対一で表している.そのため,二つのリンク の関連度を求めることは,Wikipedia の記事が表す二 つの概念の関連度を求めることと等価である.



平成25年10月10日