本研究では,教師あり機械学習には性能の優れたサポートベクターマシン(SVM)を利用する(カーネル関数には2次の多項式カーネルを利用する).
ここで,村田[8]の手法を参考に,サポートベクトルマシン法について説明する.
サポートベクトルマシン法は,
空間を超平面で分割することにより
2つの分類からなるデータを分類する手法である.
このとき,2つの分類が正例と負例からなるものとすると,
学習データにおける正例と負例の間隔(マージン)が
大きいもの
(図参照3.1)
ほどオープンデータで誤った分類をする可能性が低いと考えられ,
このマージンを最大にする超平面を求め
それを用いて分類を行なう.
基本的には上記のとおりであるが,通常,
学習データにおいてマージンの内抽出の手順部領域に
少数の事例が含まれてもよいとする手法の拡張や,
超平面の線形の部分を非線型にする拡張(カーネル関数の導入)がなされたものが
用いられる.
この拡張された方法は,以下の識別関数を用いて分類することと等価であり,
その識別関数の出力値が正か負かによって
二つの分類を判別することができる.
ただし, は識別したい事例の文脈(素性の集合)を,
と
は
学習データの文脈と分類先を意味し,関数 は,
また,関数 はカーネル関数と呼ばれ,様々なものが
用いられるが本論文では以下の多項式のものを用いる.
は実験的に設定される定数である. 本論文ではすべての実験を通してを 1 に を 2 に固定した. ここで, となる は, サポートベクトルと呼ばれ,通常,式()の和をとっている部分は この事例のみを用いて計算される. つまり,実際の解析には学習データのうちサポートベクトルと 呼ばれる事例のみしか用いられない.