next up previous contents
Next: 10分割クロスバリデーション Up: 提案手法で用いる基礎技術 Previous: ALAGIN 意味的関係抽出サービス   目次

機械学習(SVM)

SVMは教師あり機械学習の一つで,空間を超平面で分割することにより,2つの分類からなるデータを分類する手法である[7].このとき,2つの分類が正例と負例からなるものとすると,学習データにおける正例と負例の間隔(マージン)が大きい(図3.4参照)ほどオープンデータで誤った分類をする可能性が低くなると考えられ,このマージンを最大にする超平面を求め,それを利用し分類する.一般的には,上記の他の方法に「ソフトマージン」と呼ばれる学習データでマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や,線形分離ができない問題に対応するために,表平面の線形の部分を非線型にする拡張(カーネル関数の導入)がなされたものが用いられる.この拡張された方法は,式3.1識別関数を用い分類することと等価であり,その識別関数の出力値の正負によって2つの分類を判別できる[8],[9].

図 3.4: マージン最大化
5#5


6#6 7#7 8#8 (3.1)
9#9 7#7 10#10  
11#11 7#7 12#12  

ただし,13#13 は識別したい事例の文脈(素性の集合)を, 14#14 15#15 は 学習データの文脈と分類先を意味し,関数 16#16 は,

17#17 18#18 19#19 (3.2)
  20#20 21#21  

であり,また,各22#22 は式(3.4)と式(3.5)の制約のもと 式(3.3)の 23#23 を最大にする場合のものである.

24#24 7#7 25#25 (3.3)


26#26     (3.4)


27#27     (3.5)

また,関数28#28 はカーネル関数と呼ばれ,様々なものが 用いられるが本論文では式(3.6)の多項式のものを用いる.

29#29   30#30 (3.6)

31#31 は実験的に設定される定数である. 本論文ではすべての実験を通して32#32 ,33#33 はそれぞれ1に固定した. ここで, 34#34 となる 35#35 は, サポートベクトルと呼ばれ,通常,式(3.1)の和をとっている部分は この事例のみを用いて計算される. つまり,実際の解析には学習データのうちサポートベクトルと 呼ばれる事例のみしか用いられない.

サポートベクトルマシン法は2値分類器であるため,分類が3個以上のデータを扱う際ペアワイズ手法を組み合わせ利用している[8]. ペアワイズ手法とは,N個の分類を持つデータの場合,異なる二つの分類先のあらゆるペア(N(N-1)/2 個)を作り,各ペアごとにどちらが良いかを2値分類で求め,最終的にN(N-1)/2個 の2値分類の分類先の多数決により,分類先を求める方法である. 本研究では2値分類しか用いないため,ペアワイズ手法等を用いない.


next up previous contents
Next: 10分割クロスバリデーション Up: 提案手法で用いる基礎技術 Previous: ALAGIN 意味的関係抽出サービス   目次
Ryohei Abe 2015-03-10