next up previous contents
Next: IBM翻訳モデル Up: 日英統計翻訳 Previous: 句に基づく統計翻訳   目次

言語モデル

言語モデルは,単語列の生成確率を付与するモデルである.日英翻訳では,翻訳モデルを用いて生成された翻訳候補から,英語として自然な文を選出するために用いる.統計翻訳では一般的に,$N$-gram モデルを用いる.$N$-gramモデルとは``単語列 $w_1^n = w_1 , w_2 , w_3 , ... w_n $$i$ 番目の単語 $w_i$ の生起確率 $P(w_i)$ は直前の($N-1$)の単語列 $w_{i-(N-1)} , w_{i-(N-2)} , w_{i-(N-3)} , ... w_{i-1} $に依存する''という仮説に基づくモデルである.単語列$w_1^n$の生起確率 $P(w_1^n)$ の計算式を以下に示す.


$\displaystyle P(w^{n}_{1})$ $\textstyle =$ $\displaystyle P(w_1)×P(w_2\vert w_1)×P(w_3\vert w_1^2)×...×P(w_n\vert w_1^{n-1})$ (2.3)
  $\textstyle \approx$ $\displaystyle P(w_1)×P(w_2\vert w_1)×P(w_3\vert w_1^2)×...×P(w_n\vert w_{n-(N-1)}^{n-1})$ (2.4)
  $\textstyle =$ $\displaystyle \prod^{n}_{i=1}P(w_{i}\vert w_{i-(N-1)}^{i-1})$ (2.5)

また, $P(w_{i}\vert w_{n-(N-1)}^{i-1})$ は以下の式で計算される.ここで $C(w_1^i)$ は単語列 $w_1^i$ が出現する頻度を表す.



$\displaystyle P(w_{i}\vert w_{i-(N-1)}^{i-1}) = \frac{C(w_{i-(N-1)}^i)}{C(w_{i-(N-1)}^{i-1})}$     (2.6)



s122019 2018-02-15