next up previous contents
次へ: 考察 上へ: 冗長度の有効性の確認 戻る: 使用データ2(作例データ)   目次

結果

機械学習に基づく実験では, 評価は10分割クロスヴァリデーションで行った. また素性は素性番号4の冗長度を用いる場合と 用いない場合の2種類を試した. 冗長度に基づく実験では, 閾値は0.1刻みで変化させてもとめた.

評価として,正解率,再現率,適合率,F値をもとめた. 再現率と適合率は以下の式で算出される.

$\displaystyle 再現率 = \frac{システムの正解数}{テストデータ中の正解数}$ (5.1)

$\displaystyle 適合率 = \frac{システムの正解数}{システムの出力数}$ (5.2)

また % latex2html id marker 2444
$ (\ref{recoll}$ )と % latex2html id marker 2446
$ (\ref{pre}$ )の値 の調和平均% latex2html id marker 2448
$ (\ref{f}$ )を求めることでF値を算出できる.

$\displaystyle \textit{F}値 = \frac{2×適合率×再現率}{適合率+再現率}$ (5.3)

正解率は使用データ全体での正解の割合である.再現率,適合率,F値は 冗長な文を抽出する場合のものをもとめた.

収集データでの各手法による冗長な文の検出結果を表[*]と表[*]に示す.


表: 機械学習による検出結果(収集データ)
素性 正解率 再現率 適合率 F値
1,2,3,4 0.573(229/400) 0.420( 68/162) 0.469( 68/145) 0.443
1,2,3 0.570(228/400) 0.395( 64/162) 0.464( 64/138) 0.427


表: 冗長度による検出結果(収集データ)
閾値 正解率 再現率 適合率 F値
1.0 0.405(162/400) 1.000(162/162) 0.405(162/400) 0.577
1.1 0.580(232/400) 0.469( 76/162) 0.481( 76/158) 0.475
1.2 0.595(238/400) 0.210( 34/162) 0.500( 34/ 68) 0.296
1.3 0.613(245/400) 0.105( 17/162) 0.630( 17/ 27) 0.180
1.4 0.620(248/400) 0.080( 13/162) 0.812( 13/ 16) 0.146
1.5 0.620(248/400) 0.068( 11/162) 0.917( 11/ 12) 0.126
1.6 0.620(248/400) 0.068( 11/162) 0.917( 11/ 12) 0.126
1.7 0.608(243/400) 0.037( 6/162) 0.857( 6/ 7) 0.071
1.8 0.600(240/400) 0.019( 3/162) 0.750( 3/ 4) 0.036
1.9 0.600(240/400) 0.012( 2/162) 1.000( 2/ 2) 0.024
2.0 0.598(239/400) 0.006( 1/162) 1.000( 1/ 1) 0.012

作例データの各手法による検出結果を表[*]と表[*]に示す.


表: 機械学習による検出結果(作例データ)
素性 正解率 再現率 適合率 F値
1,2,3,4 0.526(263/500) 0.420( 97/231) 0.485( 97/200) 0.450
1,2,3 0.516(258/500) 0.407( 94/231) 0.472( 94/199) 0.437


表: 冗長度による検出結果(作例データ)
閾値 正解率 再現率 適合率 F値
1.0 0.462(231/500) 1.000(231/231) 0.462(231/500) 0.632
1.1 0.550(275/500) 0.355( 82/231) 0.519( 82/158) 0.422
1.2 0.568(284/500) 0.139( 32/231) 0.653( 32/049) 0.229
1.3 0.542(271/500) 0.013( 3/231) 0.750( 3/ 4) 0.026
1.4 0.536(268/500) 0.000( 0/231) 0.000( 0/ 1) 0.000
: : : : :
1.9 0.536(268/500) 0.000( 0/231) 0.000( 0/ 1) 0.000
2.0 0.536(268/500) 0.000( 0/231) 0.000( 0/ 1) 0.000

機械学習において,素性[1,2,3,4]を用いたとき0.573の正解率を得た.またF値では,0.443の値を得た.これは,冗長度の素性を用いなかった場合の正解率(0.570)やF値(0.427)よりも高い結果である. 冗長度の素性を追加で用いることで 機械学習の性能が向上することが確認できた.

[*],表[*]において,冗長度を用いる手法の性能が,収集データでは,閾値1.5で正解率0.620を得た.また作例データにおいても閾値1.2で正解率0.568を得た.機械学習の手法よりも高い場合があることがわかる.

冗長度を用いる手法が,複数の文だけでなく1文での冗長な文の検出にも役立つことが確認できた.


next up previous contents
次へ: 考察 上へ: 冗長度の有効性の確認 戻る: 使用データ2(作例データ)   目次
平成26年3月16日