next up previous contents
次へ: 目次 上へ: aso 戻る: aso   目次

概要

オンライン百科事典であるWikipediaは,近年様々な研究に利用されている. しかし,Wikipediaの利用者に対し支援を行っている研究は少ない. Wikipediaは誰もが編集可能であるという特徴を持ち,大量の情報を得ることに成功しているが,それにともない,その中から目的の情報を探すための負担は,情報が増えることに 比例して大きくなっていくため,効率の良い情報収集のための支援が求められている.

本研究では,セクション名に注目し,セクションに特定の情報が存在するか否かを表す 情報タグの付与を行うことによって,Wikipedia利用者の支援を行った. 情報タグは,教師あり機械学習であるSVMや,パターンマッチングによって付与を行う. また,先行研究を参考に,Wikipediaから機械学習で使用する教師データを自動的に生成する,推定教師データと呼ばれる教師データを生成し,その推定教師データを利用した教師学習 による情報タグ付与の評価を行った.

その結果,推定教師データを利用したSVMは,F値が0.524(再現率0.806,適合率0.492)であり,手作業で教師データを作成した SVMのF値0.612(再現率0.511,適合率0.536)よりも低いが,パターンマッチングのF値0.554(再現率0.937,適合率0.3941)とほぼ同程度であることがわかった.ここで,既存のセクションから 情報の有無を判断する,セクション名利用による方法のF値が極端に低い0.129(再現率0.069,適合率0.818)であることから, 既存のセクション名では情報が不足しており,セクション名に何らかの支援が必要であることが明らかになった. また,推定教師データと教師データとの組み合わせたSVM,推定教師データを利用したStacking,推定教師データ数,教師データ数の変化によるF値の調査を行うことによって 推定教師データ利用の可能性を調査した.



平成23年3月2日