next up previous contents
次へ: その他の関連研究 上へ: 先行研究 戻る: 法則の変遷情報の抽出   目次

ALAGINの「意味的関係抽出サービス」

ALAGINの「意味的関係抽出サービス」[13]は, パターンを入力すると,大量の文書からパターンに適合した文を抽出することができる, Stijnらの研究[14]を元にしたサービスである. このサービスを用いて,4.1節の自動で変遷情報を抽出する方法を実現した.

以下に詳細な説明を載せる. この説明は,「意味的関係抽出サービスマニュアル」[15]を参考にしている. このサービスでは,統計的な手法を用いた半自動処理により, 約6億のWeb文書から効率的に大量の単語対, 例えば「原因-結果」「トラブル-予防策」「食材-効能」などの 種々の意味的関係を持つ単語対を作成することができる.




[
c]「原因-結果」関係インスタンスの例
(「-」の左の単語が「原因」で,右の単語が「結果」)
  連鎖球菌 - 化膿性関節炎,EBウイルス - 伝染性単核球症,
  ツボカビ - カエルツボカビ症,断層 - 直下型地震,煤塵 - 環境問題,
  フロン - 地球温暖化問題,トラウマ - PTSD,
  ヒューマンエラー- 重大事故,過冷却 - 結露,窒素肥料 - 地下水汚染




[
c]「トラブル-予防策」関係インスタンスの例
(「-」の左の単語が「トラブル」で,右の単語が「予防策」)
  情報漏えい - 暗号化ソフトウェア,不正アクセス - ファイヤーウォール機能,
  床ずれ - エアマット,鳥害 - 防鳥ネット,手荒れ - ラノリン,
  老化 - ガラクタン,壁内結露 - 羊毛断熱材,尿モレ - 立体ギャザー,
  白とび - NDフィルター,腐食 - クロームメッキ




[
c]「食材-効能」関係インスタンスの例
 (「-」の左の単語が「食材」で,右の単語が「効能」)
  にんにく- 精力増強, ウコン - 吐き気, 
  酢 - 疲労回復, ハトムギ - むくみ,
  お茶 - 口臭予防,プーアル茶 - 消化,ざくろ - 美容,ゴーヤ - バテ防止,
  ペパーミント - クールダウン, クランベリー - 抗酸化作用

このサービスでは「Xから派生するY」などのパターン(シードパターン)を入力すると, シードパターンと同様な意味関係を持つ類似したパターンを自動で作成し, シードパターンと自動で作成した類似パターンに合致したX,YをWeb文書から自動的に抽出する.

ただし,特定の意味的関係に絞ったとしても, その知識は様々な言語パターンで書かれているため, 大量のインスタンスを獲得するには大量の言語パターンが必要という問題がある. それらを人手で用意する作業は非常に高コストである.

このサービスは人手コストを最小限にするため, 少数の言語パターン(以降,シードパターンと呼ぶ) を入力するだけで稼働するように設計されている. その鍵は,シードパターンと同じ意味的関係を表す, 一種の言い換えとなる言語パターン(以降,類似パターンと呼ぶ) を自動学習する機能にある. 類似パターンの学習は,同じインスタンスを獲得できるパターン同士は 良い言い換えであるという考えに基づいている. 例えば,シードパターンとして「X が Y の原因になる」 「Y の原因である X」を入力すると, これらと同じインスタンスを獲得しやすい「X によって起こる Y」「X で Y が発生」 「Y を招く X」など,多くの人がすぐには思いつきにくい言語パターンも含め,大量の 類似パターンを学習してくれる. 最終的には,学習された全類似パターンを用いて大量のインスタンスを獲得する.

さらに,このサービスは,単語の意味的なカテゴリの情報(以降クラスと呼ぶ)を用い, 曖昧な言語パターンをうまく活用できるよう工夫している. 曖昧な言語パターンとは,複数の異なる意味的関係を表せるもので, 例えば「X による Y」という言語パターンは「ノロウイルスによる食中毒」ならば因果関係, 「X 社による製品 Y」ならば会社と製品の関係といった具合に様々な関係を表す. 曖昧な言語パターンは,X,Y に当てはまる単語の意味に制限を付けることで, その曖昧性を解消することができる. 単語のクラスを[クラス名]と書くことにすると, 例えば「Xによる Y」という言語パターンは,「[生物]による[症状]」ならば因果関係, 「[組織]による[製品]」ならば会社と製品の関係となる. このように単語のクラスの対毎に異なる言語パターンと考えることで曖昧性を解消できる. すると,例えば「X が Y の原因になる」など因果関係を表す言語パターンの言い換えとしては,「[生物]による[症状]」など因果関係を表す意味カテゴリのペアを持つ言語パターンが 学習されるようになる. 実際にはこれらのクラスは「生物」「症状」などの意味的なラベルで表されているのではなく, 同じような意味を持つと自動判定された単語に同じID(1から500までの数字)が 割り当てられたものとなる. このサービスの基本的なデータ量は以下の通りである.

[
c]基本的なデータ量
 抽出対象の文書数:約 6 億ウェブページ
 対象とする単語数:約 100 万
 単語クラス数:500
 クラス対最大数:250,000 (=500×500)
 利用可能な言語パターン:約 58,700,000 種類

このサービスによって, 膨大なデータから意味的関係のインスタンスを獲得することができる.

また,このサービスでは取得時に詳細なオプションも設定することができる.



平成25年3月13日