最大エントロピー法

本研究では,教師あり機械学習法に,最大エントロピー法を使用する.

最大エントロピー法とは,あらかじめ設定しておいた素性 $ f_i(1 \leq j \leq k) $ の集合を $ F $ とするとき, 式(3.1)を満足しながらエントロピーを意味する式(3.2)を最大にするときの確率分布 $ p(a,b) $ を求め, その確率分布にしたがって求まる各分類の確率のうち, もっとも大きい確率値を持つ分類を求める分類とする方法である[5,6,7,8].


$\displaystyle \sum_{a \in A , b \in B}p(a,b)g_j(a,b) =$ $\displaystyle \sum$ $\displaystyle _{a \in A , b \in B} \title{p}(a,b)g_j(a,b)$ (3.1)
  $\displaystyle for$ $\displaystyle \forall f_j (1 \leq j \leq k)$  

$\displaystyle H(p) = - \sum _{a \in A , b \in B}p(a,b)log(p(a,b))\\ $ (3.2)

ただし,$ A,B $は分類と文脈の集合を意味し,$ g_i(a,b) $ は 文脈 $ b $ に素性 $ f_i $ があってなおかつ分類が $ a $ の場合1となり,それ以外で0となる関数を意味する.また, $ \title{p}(a,b) $は,既知データでの $ (a,b) $ の出現の割合を意味する.

式(3.1)は,確率 $ p $ と出力と素性の組の出現を意味する関数 $ g $ をかけることで 出力と素性の組の頻度の期待値を求めることになっており,右辺の既知データにおける期待値と,左辺の求める確率分布に基づいて計算される期待値が等しいことを制約として,エントロピー最大化(確率分布の平滑化)を行って,出力と文脈の確率分布を求めるものとなっている.