日本語の-gramによるモデル化

本章では言語モデルとして

-gramを用いた場合の妥当性について考察した。調査項目として、学習データ量の変化に対するモデルのエントロピーとカバー率を調査した。

unigram・bigram・trigram・4-gramのエントロピーは次式によって計算できる。

$\displaystyle unigram$	$\textstyle \sum_i$	$\displaystyle p(w_i) \log[p(w_i)]$	(3.1)
$\displaystyle bigram$	$\textstyle \sum_{i,j}$	$\displaystyle p(w_i,w_j) \log[p(w_j \vert w_i)]$	(3.2)
$\displaystyle trigram$	$\textstyle \sum_{i,j,k}$	$\displaystyle p(w_i,w_j,w_k) \log[p(w_l \vert w_i,w_j)]$	(3.3)
$\displaystyle 4-gram$	$\textstyle \sum_{i,j,k,l}$	$\displaystyle p(w_i,w_j,w_k,w_l) \log[p(w_l \vert w_i,w_j,w_k)]$	(3.4)

	...	モデルにおける単語の出現確率
$p(w_j \vert w_i)$	...	単語が出現したとき単語に遷移する遷移確率
	...	モデルにおける単語と単語が同時に出現する出現確率
$p(w_l \vert w_i,w_j)$	...	単語と単語が同時に出現したとき
		単語に遷移する遷移確率

$\begin{displaymath} L = \{w_k \mid w_k = w_{1} w_{2} \ldots w_{k}\} \end{displaymath}$

本節ではエントロピーの他に ``カバー率''も求めた。 ``カバー率''とは次のように定義する。

例えば``カバー率98%''が示す値は、学習データの中で98%をカバーするのに必要な最小のマルコフ連鎖確率の種類の数である。また ``カバー率100%''が示す値は、学習データ量全てをカバーするのに必要なマルコフ連鎖の種類の数である。

評価はカバー率96%、カバー率98%、カバー率100%、およびエントロピーの合計4つの値で行なった。

図3.2から3.8 は横軸は学習データ量で、縦軸は出現したマルコフ連鎖確率の種類の数およびエントロピーの値である。また図中における太い実線はカバー率96%、太い断線はカバー率98%、細い実線はカバー率100%、細い断線はエントロピーを示している。また``Entropy''の横に示した値は、全学習データを利用したときのエントロピーの値である。