next up previous contents
次へ: 素性 上へ: 提案手法 戻る: サポートベクトルマシン法(SVM)   目次


最大エントロピー法(ME)

最大エントロピー法は, あらかじめ設定しておいた素性 $ f_j (1\leq j\leq k)$ の集合を $ F$ とするとき, 式(4.7)を満足しながら エントロピーを意味する式(4.8)を最大にするときの 確率分布$ p(a,b)$ を求め,その確率分布にしたがって 求まる各分類の確率のうち, もっとも大きい確率値を持つ分類を求める分類とする方法である[20].


$\displaystyle \sum_{a\in A,b\in B}p(a,b)g_{j}(a,b)
\ = \sum_{a\in A,b\in B}\tilde{p}(a,b)g_{j}(a,b)$     (4.7)
$\displaystyle \ for\ \forall f_{j}\ (1\leq j \leq k)$      


$\displaystyle H(p)$ $\displaystyle =$ $\displaystyle -\sum_{a\in A,b\in B}p(a,b)\ log\left(p(a,b)\right)$ (4.8)

ただし,$ A,B$ は分類と文脈の集合を意味し, $ g_{j}(a,b)$ は 文脈$ b$ に素性$ f_j$ があってなおかつ分類が$ a$ の場合 1 となり それ以外で 0 となる関数を意味する. また, $ \tilde{p}(a,b)$ は,既知データでの $ (a,b)$ の出現の割合を意味する.

式(4.7)は確率$ p$ と 出力と素性の組の出現を意味する関数$ g$ をかけることで 出力と素性の組の頻度の期待値を求めることになっており, 右辺の既知データにおける期待値と, 左辺の求める確率分布に基づいて計算される 期待値が等しいことを制約として, エントロピー最大化(確率分布の平滑化)を行って, 出力と文脈の確率分布を求めるものとなっている.

図: マージン
\includegraphics[width=13cm]{margin.eps}



平成25年3月13日