next up previous contents
次へ: デコーダ 上へ: 日英統計翻訳システム 戻る: フレーズテーブル作成法   目次

言語モデル

言語モデルは,単語列の生成確率を付与するモデルである.日英翻訳では,翻訳モデル を用いて生成された翻訳候補から,英語として自然な文を選出するために用いる. 統計翻訳では一般的に,$N$-gram モデルを用いる.表2$N$-gramモデルの例を示す.

表: $N$-gramの例
-4.191673 the socket -0.3293359
-3.661356 the sofa -0.2541532
-3.70543 the software -0.08667657
-3.343311 the soil -0.3595161
-4.37106 the solar -0.09943552

N-gramモデルは,``単語列 $ w_{1}^n = w_{1},w_{2},...,w_{n}$ のi番目の単語$ w_{i}$ の生起確率$ P(w_{i})$ は直前の$ (n-1)$ 単語に依存する'',という仮説に基づくモデルである. 計算式を以下に示す.


$\displaystyle \displaystyle P(w_{1}^n) = \Pi_{n}^{i=1} P(w_{i} \mid w_{i-1})$     (22)

例えば,「He is a doctor .」という文字列に対する2-gramモデルは以下のようになる.


$\displaystyle \displaystyle P(e = \lq\lq  He \,is \, a \,doctor \, .'') \approx P(He...
...is \mid He) \times P(a \mid is) \times P(doctor \mid a) \times P(. \mid doctor)$     (23)

3-gramの場合を考えると,``He is"という単語列の次に``a"が来る確率を考える. しかし,$N$-gramモデルは局所的な情報であり,文法構造の情報を持たない.したがって,異なる文法構造間の翻訳は,同じ文法構造間の翻訳と比較して,翻訳精度が低下する傾向がある.

$N$-gramモデルにおいて,信頼できる値を算出するためには, 大規模なコーパスを用いることが必要である.そこで,出現数の少ない単語列をモデルの学習から削除する手法や,確率が0となるのを防ぐためのスムージング手法が提案されている.スムージングの代表的な手法としてバックオフスムージング(back-off smoothing)が挙げられる.バックオフスムージングは学習データに出現しない$N$-gramの値をより低次の$N$-gramの値から推定する.trigramの場合の例を以下に示す.


$\displaystyle P(w_{i} \mid w^{i-1}_{i-2}) =\left\{
\begin{array}{ll}
\alpha \ti...
...amが存在する場合\\
p(w_{n} \vert w_{n-1})& それ以外の場合
\end{array}\right.$     (24)

ここで,$ \alpha$ をディスカウント係数,$ \beta$ をバックオフ係数と呼ぶ.



平成23年3月3日