next up previous contents
次へ: デコーダ 上へ: 句に基づく統計翻訳 戻る: フレーズテーブルの作成   目次

言語モデル

言語モデルは,単語列に生成確率を付与するモデルである.言語モデルは単言語学習文から学習される.統計翻訳では,$N$-gram モデルを用いる.

N-gramモデルは,``単語列 $ w_{1}^n = w_{1},w_{2},...,w_{n}$ のi番目の単語$ w_{i}$ の生起確率$ P(w_{i})$は直前の$ (n-1)$ 単語に依存する''という仮説に基づくモデルである.単語列 $ w_{1}^n$の生起確率$ P(w_{i})$の計算式を(2.23)式に示す.


$\displaystyle \displaystyle P(w_{1}^n) = \Pi_{i=1}^{n} P(w_{i} \mid w_{i-(N-1)}^{i-1})$     (2.23)

ここで$P(w_{1}^n)$は,$i$から$j$番目までの単語列を表す.例えば,``She is a teacher''という単語列に対して2-gramモデルを適応した場合,単語列の生起確率は([*])式で計算される.


$\displaystyle \displaystyle P(\lq\lq  She  is   a  teacher   .'') \approx P(She) \times P(is \mid She) \times P(a \mid is) \times P(teacher \mid a)$     (2.24)



s122025 平成28年3月21日