next up previous contents
次へ: デコーダー 上へ: 言語モデル 戻る: 概要   目次

$N$-gramモデル

$N$-gramモデルは,``単語列$w_1$,$w_2$,...,$w_n$$i$番目の単語$w_i$の生 起確率$P(w_i)$は,直前の単語($N$-1)に依存する''という仮定に基づいている モデルである.計算式を以下に示す
$\displaystyle P(w_1w_2...w_n)$ $\textstyle =$ $\displaystyle \prod_{i=1}^n P(w_i\vert w_{i-1})$ (20)

例えば,「He is a pilot .」という文字列に対する2-gramモデルを以下に示す.

\begin{eqnarray*}
P(e\ =\ \lq\lq He\ is\ a\ pilot\ .'')&\approx& P(He) \times P(is\ \...
...
\vert\ is) \times P(pilot\ \vert\ a) \times P(.\ \vert\ pilot)
\end{eqnarray*}

また,3-gramモデルのときは $P(a\ \vert\ He\ is)$になり,4-gramモデルのときは $P(pilot\ \vert\ He\ is\ a)$になる.このように,(N-1)単語の次にくる単語が ``a''や``pilot''である確率を考える.



平成22年2月11日