next up previous contents
次へ: デコーダ 上へ: 日英統計翻訳システム 戻る: 翻訳モデル   目次

言語モデル

言語モデルは単語列,文字列に対して,それらが起こる確率を与えるモデルであ る.日英翻訳では,より英語らしい文に対して高い確率を与えることで,訳文候補の中から英語として自然な文を選出する.

言語モデルとして代表的なものにN-gramモデルがある.N-gramモデ ルは,``単語列 $ w_{1}^n = w_{1},w_{2},...,w_{n}$ のi番目の単語$ w_{i}$ の生 起確率$ P(w_{i})$ は直前の$ (n-1)$ 単語に依存する'',という仮説に基づくモデ ルである. 計算式を以下に示す.


$\displaystyle P(w_{1}^n) = \Pi_{n}^{i=1} P(w_{i} \mid w_{i-1})$     (3)

例えば,「He is japanese .」という文字列に対する2-gramモデルは以下のよう になる.


$\displaystyle P(e = \lq\lq He \,is \, japanese \, .'') \approx P(He) \times P(is \mid He) \times
P(japanese \mid is) \times P(. \mid japanese)$     (4)

3-gramであれば「He is」という2単語の次に来る単語が「japanese」である確率 を考える.音声認識では,一般に3-gramモデルが広く用いられており,高い効果を示し ている.



平成20年3月25日