next up previous contents
次へ: スムージング 上へ: 言語モデル 戻る: 言語モデル   目次

N-gramモデル

統計翻訳では一般的に,$N$-gramモデルを用いる.$N$-gramモデルは,単語列$\omega_1$,$\omega_2$,...,$\omega_i$が与えられたときに,その後に単語$x$がくる確率 $P(x\vert\omega_1,\omega_2,\dots,\omega_i)$を,すぐ前の$n$-1個の単語を条件とした確率として,計算するモデルである.以下に計算式を示す.


$\displaystyle P(\omega_{1}^{n})$ $\textstyle =$ $\displaystyle P(c_{1})×P(c_{2}\vert c_{1})×P(c_{3}\vert c_{2}c_{1})\cdots$ (2.20)
  $\textstyle =$ $\displaystyle \prod_{i=1}^{n}P(\omega_{i}\vert c_{1}c_{2}c_{3} \cdots c_{i-1})$ (2.21)
  $\textstyle \simeq$ $\displaystyle \prod_{i=1}^{n}P(\omega_{i}\vert\omega_{i-N+1},\omega_{i-N+2}, \cdots \omega_{i-1})$ (2.22)

例えば,``I am Japanese ."という英語文$e$に対する2-gramモデルは以下のようになる.


$\displaystyle P(e = {\rm \lq\lq I\,am\,Japanese\,.''}) \simeq P({\rm I}) \times P({\...
... I}) \times P({\rm Japanese}\vert{\rm am}) \times P({\rm .}\vert{\rm Japanese})$     (2.23)

3-gramモデルなら$P$(Japanese$\vert$I am),4-gramモデルなら$P$(.$\vert$I am Japanese)となる.



s102025 平成27年3月9日