本章では言語モデルとして-gramを用いた場合の妥当性について考察した。
調査項目として、学習データ量の変化に対するモデルのエントロピーとカバー
率を調査した。
unigram・bigram・trigram・4-gramのエントロピーは次式によって計算でき る。
![]() |
![]() |
![]() |
(3.1) |
![]() |
![]() |
![]() |
(3.2) |
![]() |
![]() |
![]() |
(3.3) |
![]() |
![]() |
![]() |
(3.4) |
ここで
![]() |
... | モデル![]() ![]() |
![]() |
... | 単語![]() ![]() |
![]() |
... | モデル![]() ![]() ![]() |
![]() |
... | 単語![]() ![]() |
単語![]() |
ただし、文集合モデルを以下のように定義する。
本節ではエントロピーの他に ``カバー率''も求めた。 ``カバー 率''とは次のように定義する。
例えば``カバー率98%''が示す値は、学習データの中で98%をカバー するのに必要な最小のマルコフ連鎖確率の種類の数である。また ``カバー率100%''が示す値は、学習データ量全てをカバーす るのに必要なマルコフ連鎖の種類の数である。
評価はカバー率96%、カバー率98%、カバー率100%、 およびエントロピーの合計4つの値で行なった。
図3.2から3.8 は横 軸は学習データ量で、縦軸は出現したマルコフ連鎖確率の種類の数 およびエントロピーの値である。また図中における太い実線はカバー 率96%、太い断線はカバー率98%、細い実線はカバー率100%、細 い断線はエントロピーを示している。また``Entropy''の横に示し た値は、全学習データを利用したときのエントロピーの値である。