next up previous contents
次へ: デコーダ 上へ: 日英統計翻訳システム 戻る: フレーズテーブル作成法   目次

言語モデル

言語モデルは,単語列の生成確率を付与するモデルである.日英翻訳では,翻訳モデル を用いて生成された翻訳候補から,英語として自然な文を選出するために用いる. 統計翻訳では一般的に,$ N$ -gram モデルを用いる.表2.2$ N$ -gramモデルにおける2-gramの例を示す.

表: $ N$ -gramの例
$ log_{10}P(w_{2}\vert w_{1})$ 英単語列( $ w_{1}\ w_{2}$ ) $ log_{10}P(w_{2}\vert w_{1})$ (スムージング推定)
-4.191673 the socket -0.3293359
-3.661356 the sofa -0.2541532
-3.70543 the software -0.08667657
-3.343311 the soil -0.3595161
-4.37106 the solar -0.09943552

表の1行目の例では,左の数値は``the"の後に``socket"がくる確率の常用対数$ log_{10}$ を求めた値である.中央は,2-gramで表された単語列,そしてバックオフスムージングで推定された確率値である.バックオフスムージングについては後述する. N-gramモデルは,``単語列 $ w_{1}^n = w_{1},w_{2},...,w_{n}$ のi番目の単語$ w_{i}$ の生起確率$ P(w_{i})$ は直前の$ (n-1)$ 単語に依存する'',という仮説に基づくモデルである. 計算式を以下に示す.


$\displaystyle P(w_1^n)$ $\displaystyle =$ $\displaystyle P(c_1) \times P(c_2\vert c_1) \times P(c_3\vert c_1c_2) \cdots$ (2.22)
  $\displaystyle =$ $\displaystyle \prod^n_{i=1} P(w_i \vert c_1 c_2 c_3 \cdots c_{i-1})$ (2.23)
  $\displaystyle \simeq$ $\displaystyle \prod^n_{i=1} P(w_i \vert w_{i-N+1},w_{i-N+2}, \cdots ,w_{i-1})$ (2.24)

例えば,``He is a man"という文字列に対する2-gramモデルは以下のようになる.


$\displaystyle \displaystyle P(e = \lq\lq  He \,is \, a \,man'') \approx P(He) \times P(is \mid He) \times P(a \mid is) \times P(man \mid a)$     (2.25)

3-gramの場合を考えると,``He is"という単語列の次に``a"が来る確率を考える. しかし,$ N$ -gramモデルは局所的な情報であり,文法構造の情報を持たない.したがって,異なる文法構造間の翻訳は,同じ文法構造間の翻訳と比較して,翻訳精度が低下する傾向がある.

$ N$ -gramモデルにおいて,信頼できる値を算出するためには, 大規模なコーパスを用いることが必要である.そこで,出現数の少ない単語列をモデルの学習から削除する手法や,確率が0となるのを防ぐためのスムージング手法が提案されている.スムージングの代表的な手法としてバックオフスムージング(back-off smoothing)が挙げられる.バックオフスムージングは学習データに出現しない$ N$ -gramの値をより低次の$ N$ -gramの値から推定する.trigramの場合の例を以下に示す.

\begin{displaymath}P(w_n\vert w_{n-2}^{n-1}) = \left\{
\begin{array}{ll}
\lambda...
...
P(w_n\vert w_{n-1}) & \mbox{otherwise}\\
\end{array}\right .\end{displaymath}     (2.26)

$ \lambda$ はディスカウントと呼ばれ,出現しないN-gram に対して確率を付与するための係数である.また,$ \alpha$ は確率の和を$ 1$ にするための正規化係数である.


next up previous contents
次へ: デコーダ 上へ: 日英統計翻訳システム 戻る: フレーズテーブル作成法   目次
平成25年2月12日