next up previous contents
Next: 機械学習(SVM) Up: 提案手法で用いる基礎技術 Previous: 提案手法で用いる基礎技術   目次

ALAGIN 意味的関係抽出サービス

ALAGINの意味的関係抽出サービス[10]は,パターンを入力することで,約6億のウェブページからパターンに適合した文と該当ページのURLを取得できるサービスである. 以下の詳細な説明は,「意味的関係抽出サービスマニュアル」[11]を参考にしている.

このサービスでは「Bに役立つA」などのパターンを入力すると,これと合致した単語A,Bがウェブ文書から自動的に抽出される.いくつかの例を図3.13.2に示す.

図 3.1: 「原因-結果」関係インスタンスの例
2#2

図 3.2: 「トラブル-予防策」関係インスタンスの例
3#3

ただし、特定の意味的関係に絞ったとしても,その知識は様々な言語パターンで書かれており,大量のインスタンスを獲得するには大量の言語パターンが必要という問題がある. それらを人手で用意する作業は高コストとなる.

このサービスでは人手コストを最小限にするため,少数の言語パターン(シードパターン)を入力するだけで稼働するように設計されている.これを可能にしているのが,シードパターンと同じ意味的関係を表す,一種の言い換えとなる言語パターン(類似パターン)を自動学習する機能である. 類似パターンの学習は,同じインスタンスを獲得できるパターン同士とは良い言い換えであるという考えに基づいている. 例をあげると,「AがBの原因になる」「Bの原因であるA」を入力すると,これらと同じインスタンスを獲得しやすい「Aによって起こるB」「AでBが発生」「Bを招くA」など,多くの人がすぐには思いつきにくい言語パターンも含め,大量の類似パターンを学習する.最終的には学習された前類似パターンを用いて大量のインスタンスを獲得する.

サービスの基本的なデータ量を以下の図3.3に示す.

図 3.3: ALAGIN 意味的関係抽出サービス 基本的なデータ量
4#4



Ryohei Abe 2015-03-10