本章では言語モデルとして-gramを用いた場合の妥当性について考察した。 調査項目として、学習データ量の変化に対するモデルのエントロピーとカバー 率を調査した。
unigram・bigram・trigram・4-gramのエントロピーは次式によって計算でき る。
(3.1) | |||
(3.2) | |||
(3.3) | |||
(3.4) |
ここで
... | モデルにおける単語の出現確率 | |
... | 単語が出現したとき単語に遷移する遷移確率 | |
... | モデルにおける単語と単語が同時に出現する出現確率 | |
... | 単語と単語が同時に出現したとき | |
単語に遷移する遷移確率 |
ただし、文集合モデルを以下のように定義する。
本節ではエントロピーの他に ``カバー率''も求めた。 ``カバー 率''とは次のように定義する。
例えば``カバー率98%''が示す値は、学習データの中で98%をカバー するのに必要な最小のマルコフ連鎖確率の種類の数である。また ``カバー率100%''が示す値は、学習データ量全てをカバーす るのに必要なマルコフ連鎖の種類の数である。
評価はカバー率96%、カバー率98%、カバー率100%、 およびエントロピーの合計4つの値で行なった。
図3.2から3.8 は横 軸は学習データ量で、縦軸は出現したマルコフ連鎖確率の種類の数 およびエントロピーの値である。また図中における太い実線はカバー 率96%、太い断線はカバー率98%、細い実線はカバー率100%、細 い断線はエントロピーを示している。また``Entropy''の横に示し た値は、全学習データを利用したときのエントロピーの値である。