次へ: 謝辞
上へ: aso
戻る: 教師データと推定教師データ組み合わせ
目次
本研究では,Wikipedia利用者の支援のために,Wikipediaのセクションごとに歴史が存在しているか否かを表す情報タグの付与を行った.また,実際にWikipediaのセクションに情報タグを様々な手法で付与しF値を調査した.
歴史の情報タグ付与実験でわかったことを以下に整理する.
- 手作業で作成した教師データを利用したSVMは,F値0.612(再現率0.511,適合率0.536)で歴史の情報タグを付与することができた.
- 推定教師データを利用したSVMは,F値が0.524(再現率0.806,適合率0.492)であり,手作業で作成した教師データを利用したSVMのF値よりも低いが,パターンマッチングのF値0.554(再現率0.937,適合率0.394)とほぼ同程度のF値であることがわかった.
- セクション名利用による方法のF値が極端に低い0.129(再現率0.069,適合率0.818)であることから,既存のセクション名では情報が不足しており,セクション名に何らかの支援が必要である
ことが明らかになった.これは,本研究で行なった,手作業で作成した教師データを利用したSVM
や推定教師データを利用したSVMやパターンマッチングの手法による,セクションへの情報付与
が役立つことを意味する.
- 全てを歴史と判定する方法はF値が低く,手作業で作成した教師データを利用したSVM
や推定教師データを利用したSVMや推定教師データを利用したSVMやパターンマッチングの手法などの
情報タグ付与手法の利用が必要なことがわかった.
- F値のみならず,再現率,適合率に基く分析を行い,各手法の特徴を明らかにした.
例えば,情報の取りこぼしなどを防ぎたいなど,適合率は低くても再現率を重視する場合は,
パターンマッチングの手法が役立つこと,中程度の再現率,適合率でよいがコストの低い手法が利用したい場合は,推定教師データに基づく機械学習による手法が役立つことを明らかにした.
さらに,証明,例,定義の情報タグ付与を行った.
この実験より以下のことがわかった.
- 推定教師データを利用したSVMは,[証明]のF値0.182(再現率1,適合率0.1),[例]のF値0.366(再現率0.406,適合率0.333),[定義]のF値0.543(再現率0.44,適合率0.446)で情報タグを付与することができた.
- 証明の推定教師データ数(305個),例の推定教師データ(868個),定義の推定教師データ(991個)から,
F値は,推定教師データ数に比例する可能性があることがわかった.
さらに、Stacking,教師データと推定教師データの組み合わせ,教師データ数によるF値の変化,
推定教師データ数によるF値の変化の追加実験を行うことで、
以下のことがわかった。
- 教師データ数が十分用意できる場合,Stackingは有効でないが,教師データ数が少ない場合,F値向上の可能性が
ある.
- 教師データ数が十分用意できる場合,推定教師データとの併用は有効でないが,教師データ数が少ない場合,F値向上の可能性がある.
- SVMのF値は教師データ数に比例しており,教師数が100件の場合のF値0.526が推定教師1,477件のF値とほぼ同値で
あることがわかった.
- SVMのF値は推定教師データ数にほぼ比例していることがわかった.
今後の課題としては,現段階では実用に耐えられるF値ではないため,
素性や手法の改良を行うことによって,F値を向上させる必要がある.
特に素性に関しては,年代情報と名詞情報しか使用していないため,
教師データ総数を増加させた場合,推定が困難になることが予測されるため,
文末情報,文長等を増やす必要がある.
今回,評価に関してはひとりで行ったため信頼性の低い評価となっている.
今後は複数人で行い信頼性の高い評価を行いたい.
また,本研究で付与した情報タグの有用性の評価を行いたい.
平成23年3月2日