next up previous
次へ: 新聞記事 上へ: 学習データ量とマルコフ連鎖確率値の収束性について 戻る: 学習データ量とマルコフ連鎖確率値の収束性について

エンロトピーと頻度別出現率

学習データ量の変化に対するマルコフ連鎖確率の値の変化を調べるた めに、まず学習データ量に対するエントロピーの収束率を調査した。 unigram・bigram・trigram・4-gramのエントロピーは次の式によっ て計算できる。
$ unigram \ \ \ \Sigma _i p(w_i)log[p(w_i)] $
$ bigram \ \ \ \ \Sigma _{i,j} p(w_i,w_j)log[p(w_j \vert w_i)] $
$ trigram \ \ \ \Sigma _{i,j,k} p(w_i,w_j,w_k)log[p(w_l \vert w_i,w_j)] $
$ 4-gram \ \ \ \Sigma _{i,j,k,l} p(w_i,w_j,w_k,w_l)log[p(w_l \vert w_i,w_j,w_k)]$

ここではエントロピーの他に ``頻度別出現率''も調査した。 ``頻 度別出現率''とは次のように定義する。

``頻度別出現率98%''が示す値は、学習データの中で98%をカバー するのに必要な最小のマルコフ連鎖確率の種類の数である。また ``頻度別出現率100%''が示す値は、学習データ量全てをカバーす るのに必要なマルコフ連鎖の種類の数である。

調査は頻度別出現率96%、頻度別出現率98%、頻度別出現率100%、 およびエントロピーの合計4つの値で行なった。

なお以後の図1から6 までの横軸は学習データ量で、縦軸は出現したマルコフ連 鎖確率の種類の数およびエントロピーの値である。また図中におけ る太い実線は頻度別出現率96%、太い断線は頻度別出現率98%、細 い実線は頻度別出現率100%、細い断線はエントロピーを示してい る。また``Entropy''の横に示した値は、全学習データを利用した ときのエントロピーの値である。



Jin'ichi Murakami 平成13年10月5日