next up previous contents
次へ: 関連研究 上へ: 実験 戻る: 収集した感動を与える文の分析   目次

感動を与える文の自動抽出性能

本研究の技術は,感動を与える文を自動抽出することに役立つ.本節では,感動を与える文を自動抽出する手法の性能を評価する.

評価結果を表[*]に示す.評価データは評価データはウェブコーパスの新たな1万文とし, 各手法で正例とした事例からランダムに 抽出した100個の事例を 人手で評価し(ベースラインのみ200個の事例を人手で 評価),その結果から近似的に 適合率,再現率,F値を算出した. ベースラインは,すべてを正例と 判断する手法であり,この手法で 検出した正例の個数から, 再現率の分母を推定している.

「ML $x$回目」は,[*]節の機械学習に 基づく方法で$x$回目の正例と負例の追加をした後の学習データ を用いた場合である. パターン1は,[*]節の分析において, 正例に出現する割合が0.8以上であった単語を 一つでも含む文をすべて正例として抜き出す 方法である. パターン2は,「感動」という語を 一つでも含む文をすべて正例として抜き出す 方法である.

10回正例と負例の追加をした後の機械学習では 適合率が0.40が得られている.


表: 種々の手法の抽出性能
手法 適合率 再現率 F値
ML 0回目 0.06 0.25 0.10
ML 1回目 0.26 0.08 0.12
ML 2回目 0.29 0.07 0.11
ML 5回目 0.31 0.05 0.09
ML 10回目 0.40 0.05 0.09
ベースライン 0.07 1.00 0.12
パターン1 0.11 0.08 0.09
パターン2 1.00 0.002 0.003



eki takashi 平成24年3月13日