next up previous contents
次へ: 新聞記事 上へ: 確率的言語モデルによる自由発話認識に関する研究 戻る: まとめ   目次


日本語の$N$-gramによるモデル化

本章では言語モデルとして$N$-gramを用いた場合の妥当性について考察した。 調査項目として、学習データ量の変化に対するモデルのエントロピーとカバー 率を調査した。

unigram・bigram・trigram・4-gramのエントロピーは次式によって計算でき る。


$\displaystyle unigram$ $\textstyle \sum_i$ $\displaystyle p(w_i) \log[p(w_i)]$ (3.1)
$\displaystyle bigram$ $\textstyle \sum_{i,j}$ $\displaystyle p(w_i,w_j) \log[p(w_j \vert w_i)]$ (3.2)
$\displaystyle trigram$ $\textstyle \sum_{i,j,k}$ $\displaystyle p(w_i,w_j,w_k) \log[p(w_l \vert w_i,w_j)]$ (3.3)
$\displaystyle 4-gram$ $\textstyle \sum_{i,j,k,l}$ $\displaystyle p(w_i,w_j,w_k,w_l) \log[p(w_l \vert w_i,w_j,w_k)]$ (3.4)

ここで

$p(w_i)$ ... モデル$L$における単語$w_i$の出現確率
$p(w_j \vert w_i)$ ... 単語$w_i$が出現したとき単語$w_j$に遷移する遷移確率
$p(w_i,w_j)$ ... モデル$L$における単語$w_i$と単語$w_j$が同時に出現する出現確率
$p(w_l \vert w_i,w_j)$ ... 単語$w_i$と単語$w_j$が同時に出現したとき
    単語$w_l$に遷移する遷移確率

ただし、文集合モデル$L$を以下のように定義する。

\begin{displaymath}
L = \{w_k \mid w_k = w_{1} w_{2} \ldots w_{k}\}
\end{displaymath}

本節ではエントロピーの他に ``カバー率''も求めた。 ``カバー 率''とは次のように定義する。

例えば``カバー率98%''が示す値は、学習データの中で98%をカバー するのに必要な最小のマルコフ連鎖確率の種類の数である。また ``カバー率100%''が示す値は、学習データ量全てをカバーす るのに必要なマルコフ連鎖の種類の数である。

評価はカバー率96%、カバー率98%、カバー率100%、 およびエントロピーの合計4つの値で行なった。

3.2から3.8 は横 軸は学習データ量で、縦軸は出現したマルコフ連鎖確率の種類の数 およびエントロピーの値である。また図中における太い実線はカバー 率96%、太い断線はカバー率98%、細い実線はカバー率100%、細 い断線はエントロピーを示している。また``Entropy''の横に示し た値は、全学習データを利用したときのエントロピーの値である。



Subsections

Jin'ichi Murakami 平成13年1月5日