言語モデル

次へ: デコーダ 上へ: 日英統計翻訳システム 戻る: 翻訳モデル目次

言語モデル

言語モデルは単語列，文字列に対して，それらが起こる確率を与えるモデルである．日英翻訳では，より英語らしい文に対して高い確率を与えることで，訳文候補の中から英語として自然な文を選出する．

言語モデルとして代表的なものにN-gramモデルがある．N-gramモデルは，``単語列 $w_{1}^n = w_{1},w_{2},...,w_{n}$ のi番目の単語 $w_{i}$ の生起確率 $P(w_{i})$ は直前の単語に依存する''，という仮説に基づくモデルである．計算式を以下に示す．

$\displaystyle P(w_{1}^n) = \Pi_{n}^{i=1} P(w_{i} \mid w_{i-1})$

(3)

例えば，「He is japanese .」という文字列に対する2-gramモデルは以下のようになる．

$\displaystyle P(e = \lq\lq He \,is \, japanese \, .'') \approx P(He) \times P(is \mid He) \times P(japanese \mid is) \times P(. \mid japanese)$

(4)

3-gramであれば「He is」という2単語の次に来る単語が「japanese」である確率を考える．音声認識では，一般に3-gramモデルが広く用いられており，高い効果を示している．

平成20年3月25日