next up previous contents
次へ: 冗長度に基づく手法での閾値調整 上へ: 実験 戻る: 実験   目次


機械学習に基づく手法での素性選択

機械学習に基づく手法において, 学習データでの10分割クロスバリデーションの実験により, 学習データの正解率が高いときの素性の組み合わせを選択する.

1個の素性のみを用いる実験を行った. その実験結果における正解率を表[*]に示す. 表内の数字は,実験に使用する素性を示している. 数字は,[*]節での素性番号に対応している.


表: 素性選択(1回目)
素性 正解率
1 0.536(268/500)
2 0.482(241/500)
3 0.616(308/500)
4 0.474(237/500)
5 0.494(247/500)
6 0.582(291/500)
7 0.598(299/500)
8 0.572(286/500)

[*]では,素性番号3が最も高い正解率を得ている. 次に,素性番号3と残りの素性の一つを用いた機械学習をする. その結果を表[*]に示す.


表: 素性選択(2回目)
素性 正解率
3,1 0.570(285/500)
3,2 0.590(295/500)
3,3 -
3,4 0.522(261/500)
3,5 0.552(276/500)
3,6 0.620(310/500)
3,7 0.610(305/500)
3,8 0.584(292/500)

同様にして表[*]と表[*]の実験を行った.


表: 素性選択(3回目)
素性 正解率
3,6,1 0.598(299/500)
3,6,2 0.626(313/500)
3,6,3 -
3,6,4 0.540(270/500)
3,6,5 0.548(274/500)
3,6,6 -
3,6,7 0.628(314/500)
3,6,8 0.648(324/500)


表: 素性選択(4回目)
素性 正解率
3,6,8,1 0.582(291/500)
3,6,8,2 0.626(313/500)
3,6,8,3 -
3,6,8,4 0.538(269/500)
3,6,8,5 0.568(284/500)
3,6,8,6 -
3,6,8,7 0.634(317/500)
3,6,8,8 -

[*]で最も性能高い場合の使用素性[3,6,8,7]の正解率0.634が, 表[*]の最高値である使用素性[3,6,8]の0.648を下回ったので, 素性[3,6,8]がテストデータで利用する素性の組み合わせとなる.

参考にすべての素性を用いた場合の結果を表[*]に示す.


表: 全素性を利用した場合の結果
素性 正解率
1,2,3,4,5,6,7,8 0.542(271/500)

すべての素性を用いた場合の正解率0.542は, 正解率が最大となる場合の素性の組み合わせを利用した場合の正解率0.648より 小さいことが確認できる.


next up previous contents
次へ: 冗長度に基づく手法での閾値調整 上へ: 実験 戻る: 実験   目次
平成26年3月16日