機械学習に基づく手法において, 学習データでの10分割クロスバリデーションの実験により, 学習データの正解率が高いときの素性の組み合わせを選択する.
1個の素性のみを用いる実験を行った. その実験結果における正解率を表に示す. 表内の数字は,実験に使用する素性を示している. 数字は,節での素性番号に対応している.
素性 | 正解率 |
1 | 0.536(268/500) |
2 | 0.482(241/500) |
3 | 0.616(308/500) |
4 | 0.474(237/500) |
5 | 0.494(247/500) |
6 | 0.582(291/500) |
7 | 0.598(299/500) |
8 | 0.572(286/500) |
表では,素性番号3が最も高い正解率を得ている. 次に,素性番号3と残りの素性の一つを用いた機械学習をする. その結果を表に示す.
素性 | 正解率 |
3,1 | 0.570(285/500) |
3,2 | 0.590(295/500) |
3,3 | - |
3,4 | 0.522(261/500) |
3,5 | 0.552(276/500) |
3,6 | 0.620(310/500) |
3,7 | 0.610(305/500) |
3,8 | 0.584(292/500) |
素性 | 正解率 |
3,6,1 | 0.598(299/500) |
3,6,2 | 0.626(313/500) |
3,6,3 | - |
3,6,4 | 0.540(270/500) |
3,6,5 | 0.548(274/500) |
3,6,6 | - |
3,6,7 | 0.628(314/500) |
3,6,8 | 0.648(324/500) |
素性 | 正解率 |
3,6,8,1 | 0.582(291/500) |
3,6,8,2 | 0.626(313/500) |
3,6,8,3 | - |
3,6,8,4 | 0.538(269/500) |
3,6,8,5 | 0.568(284/500) |
3,6,8,6 | - |
3,6,8,7 | 0.634(317/500) |
3,6,8,8 | - |
表で最も性能高い場合の使用素性[3,6,8,7]の正解率0.634が, 表の最高値である使用素性[3,6,8]の0.648を下回ったので, 素性[3,6,8]がテストデータで利用する素性の組み合わせとなる.
すべての素性を用いた場合の正解率0.542は, 正解率が最大となる場合の素性の組み合わせを利用した場合の正解率0.648より 小さいことが確認できる.