次へ: Wikipediaからの連想シソーラス構築プロジェクト
上へ: Wikipediaからの情報抽出に関する研究
戻る: Wikipediaからの情報抽出に関する研究
目次
隅田らはWikipediaの記事構造に含まれる節や箇条書きの見出しから,
大量の上位下位関係候補を抽出し,機械学習を用いてフィルタリングすることで
高精度で上位下位関係を獲得する手法を開発した[3].
ここで,隅田らの研究手法,特に本研究の参考になった素性の設定について説明する.
まず,隅田らの研究手法について説明する.隅田らの研究手法は以下のとおりである.
- Step1 Wikipedia の記事構造からの上位下位関係候補の抽出
- このステップでは,記事構造の各ノードを上位
語候補,子孫関係にあるノードを下位語候補とする全ての組み合わせを上位下位関係候補として抽出する.
例えば,図 の記事構造からは,「ブレンドティー/チャイ」や,「紅茶/リプトン」などの上位下位関係候
補が抽出できる.
- Step2 機械学習によるフィルタリング
- Step1 の手続きで得られた上位下位関係候補は多くの適切な関係を含む
一方で, 「生産地/インド」「紅茶ブランド/イギリス」のような誤りも含む.Step2 では,Step1 で抽出し
た上位下位関係候補から教師あり機械学習を用い不適切な関係を取り除く.上位下位関係候補が適切な上
位下位関係か否かを判定するため,Support Vector Machine (SVM)(Vapnik 1998) で学習された分類器を
用いて上位下位関係候補を選別する.
図:
「紅茶」に関するWikipedia の記事の例(文献[3]より引用)
|
次に,隅田らの機械学習の実験で用いた素性について説明する.
隅田らの研究では素性として,上位下位関係候補がある条件(特徴)を満たすかどうかを一つの素
性として表現し,素性ごとに設定された条件を入力の上位下位関係候補が満たせば,対応する
素性ベクトルの次元の値に 1 をセットし,満たさなければ 0 をセットする.
素性として利用するものは,「上位語候補・下位語候補の品詞(POS)」,
「上位語候補・下位語候補中の形態素の表層文字列(MORPH)」,「不要語(EXP)」,
「属性語(ATTR)」,「修飾記号の種類(LAYER)」,「上位語候補と下位語候補との間の距離(DIST)」,
「子孫ノード(PAT)」,「形態素間の類似性(LCHAR)」である.
以下で,素性「上位語候補と下位語候補との間の距離(DIST)」と,「形態素間の類似性(LCHAR)」の設定を説明する.
- 上位語候補と下位語候補との間の距離(DIST)
- 記事構造で上位語候補と下位語候補との間の距離が近ければ近いほど,
正しい上位下位関係であることが多い.そこで,記事構造中における上位語候補・下位語候補間の距
離を素性とすることで,この傾向を捉える.隅田らの研究では,上位語候補,下位語候補間の距
離は記事構造中で上位語候補と下位語候補間に存在する辺の数とする.例えば,図
の記事構造上で「Wedgwood」と「紅茶ブランド」間の距離は 2 である.素性 DIST では,
上位語候補と下位語候補間の距離が 2 以上か否かという 2 つの状態にそれぞれ異なる次
元を割りあてた.
- 形態素間の類似性(LCHAR)
- 素性 MORPH では,形態素間の類似性を判断しているため,
「高校」や「公立校」のように形態素の一部が一致する語の類似性はないと判断してしまう欠点が存在する.
そこで上記のような事例を扱えるようにするため,素性 LCHAR では,上位語候補と下
位語候補の末尾の 1 文字が共通する複合語に意味的に似た語が多い特徴を利用し,素性
の欠点を補う.具体的には,上位語候補と下位語候補の末尾が同じとき,このMORPH
素性に対応する素性ベクトルの次元の値を 1 にセットするように設計した.
平成25年10月10日