next up previous contents
Next: 単語に基づく翻訳モデル Up: 言語モデル Previous: 言語モデル   目次

$N$-gramモデル

$N$-gramモデルとは``単語列 $P(W_1^n) = w_1^n = w_1 , w_2 , w_3 , ... w_n $$i$ 番目の単語 $w_i$ の生起確率 $P(w_i)$ は直前の($N-1$)の単語列 $w_{i-(N-1)} , w_{i-(N-2)} , w_{i-(N-3)} , ... w_{i-1} $に依存する''という仮説に基づくモデルである. 計算式を以下に示す.


$\displaystyle P(W^{n}_{1})$ $\textstyle =$ $\displaystyle P(w_1)×P(w_2\vert w_1)×P(w_3\vert w_1^2)...P(w_n\vert w_1^{n-1})$ (3)
  $\textstyle \approx$ $\displaystyle P(w_1)×P(w_2\vert w_1)×P(w_3\vert w_1^2)...P(w_n\vert w_{n-(N-1)}^{n-1})$ (4)
  $\textstyle =$ $\displaystyle \prod^{n}_{i=1}P(w_{i}\vert w_{i-(N-1)}^{i-1})$ (5)

また, $P(w_{i}\vert w_{n-(N-1)}^{i-1})$ は以下の式で計算される. ここで $C(w_1^i)$ は単語列 $w_1^i$ が出現する頻度を表す.


$\displaystyle P(w_{i}\vert w_{i-(N-1)}^{i-1}) = \frac{C(w_{i-(N-1)}^i)}{C(w_{i-(N-1)}^{i-1})}$     (6)



s122019 2016-03-03