学習データ量の変化に対するマルコフ連鎖確率の値の変化を調べるた
めに、まず学習データ量に対するエントロピーの収束率を調査した。
unigram・bigram・trigram・4-gramのエントロピーは次の式によっ
て計算できる。
ここではエントロピーの他に ``頻度別出現率''も調査した。 ``頻 度別出現率''とは次のように定義する。
``頻度別出現率98%''が示す値は、学習データの中で98%をカバー するのに必要な最小のマルコフ連鎖確率の種類の数である。また ``頻度別出現率100%''が示す値は、学習データ量全てをカバーす るのに必要なマルコフ連鎖の種類の数である。
調査は頻度別出現率96%、頻度別出現率98%、頻度別出現率100%、 およびエントロピーの合計4つの値で行なった。
なお以後の図1から6 までの横軸は学習データ量で、縦軸は出現したマルコフ連 鎖確率の種類の数およびエントロピーの値である。また図中におけ る太い実線は頻度別出現率96%、太い断線は頻度別出現率98%、細 い実線は頻度別出現率100%、細い断線はエントロピーを示してい る。また``Entropy''の横に示した値は、全学習データを利用した ときのエントロピーの値である。