next up previous contents
次へ: デコーダ 上へ: 句ベース統計翻訳 戻る: 手順7 フレーズ対応の抽出   目次

言語モデル

言語モデルは,単語列が生じる確率を付与するモデルである.翻訳モデルで生成された翻訳候補から英語として自然な文を選出する.言語モデルは,単言語コーパスから学習される.統計翻訳において,言語モデルは通常,$ N$ -gramモデルが用いられる.N-gramモデルは,``単語列 $ w_1^n = w_1,w_2,w_3,...,w_n $$ i$ 番目の単語$ w_{i}$ の生起確率$ P(w_{i})$ は,$ w_i$ の直前の$ (N-1)$ 単語に依 存する''という仮説に基づくモデルである.以下に,``単語列$ w_1^n $ の生起確率$ P(w_1^n)$ "の計算式を示す.
$\displaystyle P(w_1^n)$ $\displaystyle =$ $\displaystyle \prod^{n}_{i=1} P(w_{i} \mid w^{i-1}_{i-(N-1)})$ (2.5)

また, $ P(w_{i} \mid w^{i-1}_{i-(N-1)})$ の計算には,以下の式を用いる.なお, $ C(w^{i}_{i-(N-1)})$ は,単語列 $ w^{i}_{i-(N-1)}$ の出現数であり, $ C(w^{i-1}_{i-(N-1)})$ は,単語列 $ w^{i-1}_{i-(N-1)}$ の出現数である.

$\displaystyle P(w_{i} \mid w^{i-1}_{i-(N-1)}) =
\frac{C(w^{i}_{i-(N-1)})}{C(w^{i-1}_{i-(N-1)})}$     (2.6)

2.2に,言語モデルの例を示す.表2.2の言語モデルは,2-gram(2単語間)のものである.

表: 言語モデルの例
2-gramで表された単語列 2-gramの確率 バックオフスムージングによる確率
He is -2.041488 -0.000405
He had -2.804095 -0.006078
He made -2.895682 0.001770

2.2の一番上の例に関して,左から,``He"のあとに``is"がくる確率を常用対数で表した値`` $ log_{10}(P(is\ \vert\ He))=-2.041488$ '',2-gramで表された単語列``He is",バックオフスムージングで推定された,``He"の後に``is"がくる確率を常用対数で表した値`` $ log_{10}(P(is\ \vert\ He))=-0.000405$ ''である. ここで,バックオフスムージングとは,高次の$ N$ -gramが存在しない場合,低次の$ N$ -gramを用いる手法である.



平成25年2月13日