次へ: 関連研究 上へ: 実験 戻る: 収集した感動を与える文の分析目次

感動を与える文の自動抽出性能

本研究の技術は，感動を与える文を自動抽出することに役立つ．本節では，感動を与える文を自動抽出する手法の性能を評価する．

評価結果を表に示す．評価データは評価データはウェブコーパスの新たな1万文とし，各手法で正例とした事例からランダムに抽出した100個の事例を人手で評価し(ベースラインのみ200個の事例を人手で評価)，その結果から近似的に適合率，再現率，F値を算出した．ベースラインは，すべてを正例と判断する手法であり，この手法で検出した正例の個数から，再現率の分母を推定している．

「ML 回目」は，節の機械学習に基づく方法で回目の正例と負例の追加をした後の学習データを用いた場合である．パターン1は，節の分析において，正例に出現する割合が0.8以上であった単語を一つでも含む文をすべて正例として抜き出す方法である．パターン2は，「感動」という語を一つでも含む文をすべて正例として抜き出す方法である．

10回正例と負例の追加をした後の機械学習では適合率が0.40が得られている．

表: 種々の手法の抽出性能
手法	適合率	再現率	F値
ML 0回目	0.06	0.25	0.10
ML 1回目	0.26	0.08	0.12
ML 2回目	0.29	0.07	0.11
ML 5回目	0.31	0.05	0.09
ML 10回目	0.40	0.05	0.09
ベースライン	0.07	1.00	0.12
パターン1	0.11	0.08	0.09
パターン2	1.00	0.002	0.003

eki takashi 平成24年3月13日