評価として,正解率,再現率,適合率,F値をもとめた. 再現率と適合率は以下の式で算出される.
また )と )の値 の調和平均 )を求めることでF値を算出できる.
正解率は使用データ全体での正解の割合である.再現率,適合率,F値は 冗長な文を抽出する場合のものをもとめた.
収集データでの各手法による冗長な文の検出結果を表と表に示す.
素性 | 正解率 | 再現率 | 適合率 | F値 |
1,2,3,4 | 0.573(229/400) | 0.420( 68/162) | 0.469( 68/145) | 0.443 |
1,2,3 | 0.570(228/400) | 0.395( 64/162) | 0.464( 64/138) | 0.427 |
閾値 | 正解率 | 再現率 | 適合率 | F値 |
1.0 | 0.405(162/400) | 1.000(162/162) | 0.405(162/400) | 0.577 |
1.1 | 0.580(232/400) | 0.469( 76/162) | 0.481( 76/158) | 0.475 |
1.2 | 0.595(238/400) | 0.210( 34/162) | 0.500( 34/ 68) | 0.296 |
1.3 | 0.613(245/400) | 0.105( 17/162) | 0.630( 17/ 27) | 0.180 |
1.4 | 0.620(248/400) | 0.080( 13/162) | 0.812( 13/ 16) | 0.146 |
1.5 | 0.620(248/400) | 0.068( 11/162) | 0.917( 11/ 12) | 0.126 |
1.6 | 0.620(248/400) | 0.068( 11/162) | 0.917( 11/ 12) | 0.126 |
1.7 | 0.608(243/400) | 0.037( 6/162) | 0.857( 6/ 7) | 0.071 |
1.8 | 0.600(240/400) | 0.019( 3/162) | 0.750( 3/ 4) | 0.036 |
1.9 | 0.600(240/400) | 0.012( 2/162) | 1.000( 2/ 2) | 0.024 |
2.0 | 0.598(239/400) | 0.006( 1/162) | 1.000( 1/ 1) | 0.012 |
素性 | 正解率 | 再現率 | 適合率 | F値 |
1,2,3,4 | 0.526(263/500) | 0.420( 97/231) | 0.485( 97/200) | 0.450 |
1,2,3 | 0.516(258/500) | 0.407( 94/231) | 0.472( 94/199) | 0.437 |
閾値 | 正解率 | 再現率 | 適合率 | F値 |
1.0 | 0.462(231/500) | 1.000(231/231) | 0.462(231/500) | 0.632 |
1.1 | 0.550(275/500) | 0.355( 82/231) | 0.519( 82/158) | 0.422 |
1.2 | 0.568(284/500) | 0.139( 32/231) | 0.653( 32/049) | 0.229 |
1.3 | 0.542(271/500) | 0.013( 3/231) | 0.750( 3/ 4) | 0.026 |
1.4 | 0.536(268/500) | 0.000( 0/231) | 0.000( 0/ 1) | 0.000 |
: | : | : | : | : |
1.9 | 0.536(268/500) | 0.000( 0/231) | 0.000( 0/ 1) | 0.000 |
2.0 | 0.536(268/500) | 0.000( 0/231) | 0.000( 0/ 1) | 0.000 |
機械学習において,素性[1,2,3,4]を用いたとき0.573の正解率を得た.またF値では,0.443の値を得た.これは,冗長度の素性を用いなかった場合の正解率(0.570)やF値(0.427)よりも高い結果である. 冗長度の素性を追加で用いることで 機械学習の性能が向上することが確認できた.
表,表において,冗長度を用いる手法の性能が,収集データでは,閾値1.5で正解率0.620を得た.また作例データにおいても閾値1.2で正解率0.568を得た.機械学習の手法よりも高い場合があることがわかる.
冗長度を用いる手法が,複数の文だけでなく1文での冗長な文の検出にも役立つことが確認できた.