本研究では,セクション名に注目し,セクションに特定の情報が存在するか否かを表す 情報タグの付与を行うことによって,Wikipedia利用者の支援を行った. 情報タグは,教師あり機械学習であるSVMや,パターンマッチングによって付与を行う. また,先行研究を参考に,Wikipediaから機械学習で使用する教師データを自動的に生成する,推定教師データと呼ばれる教師データを生成し,その推定教師データを利用した教師学習 による情報タグ付与の評価を行った.
その結果,推定教師データを利用したSVMは,F値が0.524(再現率0.806,適合率0.492)であり,手作業で教師データを作成した SVMのF値0.612(再現率0.511,適合率0.536)よりも低いが,パターンマッチングのF値0.554(再現率0.937,適合率0.3941)とほぼ同程度であることがわかった.ここで,既存のセクションから 情報の有無を判断する,セクション名利用による方法のF値が極端に低い0.129(再現率0.069,適合率0.818)であることから, 既存のセクション名では情報が不足しており,セクション名に何らかの支援が必要であることが明らかになった. また,推定教師データと教師データとの組み合わせたSVM,推定教師データを利用したStacking,推定教師データ数,教師データ数の変化によるF値の調査を行うことによって 推定教師データ利用の可能性を調査した.