翻訳候補の選択

次へ: ITMの実行結果 上へ: 翻訳実験システムの実装 戻る: 局所翻訳目次

翻訳候補の選択

文型パターン[1]の作成に用いた英文集約12万文を英語の言語モデルとして，局所翻訳で生成した翻訳候補の選択を行う．本研究では，2単語の連鎖確率を用いる．

2単語の連鎖確率は，単語列の確率の近似である．単語列の確率は， $w_1 w_2 w_3 \cdots w_n$ という単語列の場合，以下の式により求める．

$\displaystyle P$	$\textstyle =$	$\displaystyle P(w_1 w_2 w_3 \ldots w_n)$
	$\textstyle =$	$\displaystyle P(w_1)・P(w_2\vert w_1)・P(w_3\vert w_1 w_2)・P(w_4\vert w_1 w_2 w_2)・\ldots・P(w_n\vert w_1 \ldots w_{n-1})$

この式を用いると，確率変数が多くなるにつれて言語モデルから該当回数が数えられなくなるため近似を行う．2単語の連鎖確率は，以下の近似式とする．

$P = P(w_1)・P(w_2\vert w_1)・P(w_3\vert w_2)・P(w_4\vert w_3)・\ldots・ P(w_n\vert w_{n-1})$
それぞれの確率の計算方法は以下の通りである．

$P(w_i) = C(w_i) / C_{total}$

$P(w_i\vert w_{i-1}) = C(w_{i-1} w_i) / C(w_{i-1})$

ただし，は出現回数である． $C_{total}$ は言語モデル中の全ての単語数であり，は単語の出現回数であり， $C(w_{i-1} w_i)$ は単語 $w_{i-1}$ とがこの語順で連続して出現する回数である．ここで，未知語の入力がある場合または言語モデルにはない語順の場合は，となる．しかし，原因として，言語モデルが不十分であるため，出現回数が0となるのか，文法的・意味的に出現しえないのか判定ができない．そこで，これらの場合には十分小さい確率を使用する．具体的には，以下の式を使用する．

$P(w_i) = 1 / (C_{total} * 10)$

$P(w_i\vert w_{i-1}) = 1 / (C_{total} * 10)$

また，分母と分子の値に大きな差があるため，入力単語列の確率計算ではアンダーフローが生じ，正しく計算できない．そこで，確率を求める代りに $\log P$ を求める．よって，本研究で用いる2単語の連鎖確率は，以下の式で求める．

$P = \log P(w_1) + \log P(w_2\vert w_1) + \log P(w_3\vert w_2) + \log P(w_4\vert w_3) + \ldots + \log P(w_n\vert w_{n-1})$

平成19年3月16日