next up previous contents
次へ: ITMの実行結果 上へ: 翻訳実験システムの実装 戻る: 局所翻訳   目次

翻訳候補の選択

文型パターン[1]の作成に用いた英文集約12万文を英語の言語モデ ルとして,局所翻訳で生成した翻訳候補の選択を行う.本研究では,2単語の連鎖 確率を用いる.

2単語の連鎖確率は,単語列の確率の近似である.単語列の確率$P$は, $w_1 w_2 w_3 \cdots w_n$ という単語列の場合,以下の式により求める.

$\displaystyle P$ $\textstyle =$ $\displaystyle P(w_1 w_2 w_3 \ldots w_n)$  
  $\textstyle =$ $\displaystyle P(w_1)・P(w_2\vert w_1)・P(w_3\vert w_1 w_2)・P(w_4\vert w_1 w_2 w_2)・\ldots・P(w_n\vert w_1
\ldots w_{n-1})$  

この式を用いると,確率変数が多くなるにつれて言語モデルから該当回数が数 えられなくなるため近似を行う.2単語の連鎖確率は,以下の近似式とする.

$P = P(w_1)・P(w_2\vert w_1)・P(w_3\vert w_2)・P(w_4\vert w_3)・\ldots・
P(w_n\vert w_{n-1})$
それぞれの確率の計算方法は以下の通りである.

$P(w_i) = C(w_i) / C_{total} $

$P(w_i\vert w_{i-1}) = C(w_{i-1} w_i) / C(w_{i-1})$

ただし,$C$は出現回数である.$C_{total}$は言語モデル中の全ての単語数であ り,$C(w_i)$は単語$w_i$の出現回数であり, $C(w_{i-1} w_i)$は単語$w_{i-1}$$w_i$がこの語順で連続して出現する回数 である. ここで,未知語の入力がある場合または言語モデルにはない語順の場合は, $C=0$となる.しかし,原因として,言語モデルが不十分であるため,出現回数 が0となるのか,文法的・意味的に出現しえないのか判定ができない.そこで, これらの場合には十分小さい確率を使用する.具体的には,以下の式を使用する.

$P(w_i) = 1 / (C_{total} * 10)$

$P(w_i\vert w_{i-1}) = 1 / (C_{total} * 10)$

また,分母と分子の値に大きな差があるため,入力単語列の確率計算ではアン ダーフローが生じ,正しく計算できない.そこで,確率$P$を求める代りに $\log P$を求める.よって,本研究で用いる2単語の連鎖確率は,以下の式で求 める.

$P = \log P(w_1) + \log P(w_2\vert w_1) + \log P(w_3\vert w_2) + \log P(w_4\vert w_3)
+ \ldots + \log P(w_n\vert w_{n-1})$


平成19年3月16日