next up previous contents
次へ: デコーダ 上へ: 統計翻訳システムの概要 戻る: 言語モデル   目次

$N$-gramモデル

$N$-gramモデルは,``単語列$w_1$,$w_2$,...,$w_n$$i$番目の単語$w_i$の生起確率$P(w_i)$は, 直前の単語($N-1$)に依存する''という仮定に基づくモデルである.計算式を以下に示す.


$\displaystyle P(w_1w_2...w_n)$ $\textstyle =$ $\displaystyle \prod_{i=1}^n P(w_i\vert w_{i-1})$ (2.3)

例として,``This is a pen''という文字列に対する2-gramモデルを以下に示す.

\begin{eqnarray*}
P(e=\lq\lq This is a pen \!\mbox{''})&\approx&
P(This)
\times P(is\vert This)
\times P(a\vert is)
\times P(pen\vert a)
\end{eqnarray*}

また,3-gramモデルのときは$P(a\vert This is)$となる.このように,($N-1$)単語の次にくる単語が ``is''や``pen''である確率を求める.



平成25年2月13日