次へ: 評価方法
上へ: 冗長な文の検出
戻る: 冗長な文の検出
目次
サポートベクトルマシン法は,
空間を超平面で分割することにより
2つの分類からなるデータを分類する手法である.
このとき,2つの分類が正例と負例からなるものとすると,
学習データにおける正例と負例のマージン(間隔)を大きくとるほど分類器の誤りが減少するという考えから,
このマージンを最大にする超平面を求めそれを用いて分類を行なう.
一般的に上記の方法の他に,「ソフトマージン」と呼ばれる
学習データにおいてマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や,
線形分離が不可能な問題に対応するために,
超平面の線形の部分を非線型にする拡張(カーネル関数の導入)
がなされたものが用いられる.
この拡張された方法は,以下の識別関数を用いて分類することと等価であり,
その識別関数の出力値が正か負かによって
二つの分類を判別することが可能である.
8#8 |
9#9 |
10#10 |
(4.1) |
11#11 |
9#9 |
12#12 |
|
13#13 |
9#9 |
14#14 |
|
ただし,15#15
は識別したい事例の文脈(素性の集合)を,
16#16
と
17#17
は
学習データの文脈と分類先を意味し,関数 18#18
は,
19#19 |
20#20 |
21#21 |
(4.2) |
|
22#22 |
23#23 |
|
であり,また,各24#24
は式(4.4)と式(4.5)の制約のもと
式(4.3)の
25#25
を最大にする場合のものである.
また,関数30#30
はカーネル関数と呼ばれ,様々なものが
用いられるが本稿では以下の多項式のものを用いる.
33#33
は実験的に設定される定数である.
本稿ではすべての実験を通して34#34
を 1 に 35#35
を 2 に固定した.
ここで,
36#36
となる 37#37
は,
サポートベクトルと呼ばれ,通常,式(4.1)の和をとっている部分は
この事例のみを用いて計算される.
次へ: 評価方法
上へ: 冗長な文の検出
戻る: 冗長な文の検出
目次
tsudou
平成24年3月14日