2単語の連鎖確率は,単語列の確率の近似である.単語列の確率は,
という単語列の場合,以下の式により求める.
この式を用いると,確率変数が多くなるにつれて言語モデルから該当回数が数 えられなくなるため近似を行う.2単語の連鎖確率は,以下の近似式とする.
それぞれの確率の計算方法は以下の通りである.
ただし,は出現回数である.は言語モデル中の全ての単語数であ り,は単語の出現回数であり, は単語とがこの語順で連続して出現する回数 である. ここで,未知語の入力がある場合または言語モデルにはない語順の場合は, となる.しかし,原因として,言語モデルが不十分であるため,出現回数 が0となるのか,文法的・意味的に出現しえないのか判定ができない.そこで, これらの場合には十分小さい確率を使用する.具体的には,以下の式を使用する.
また,分母と分子の値に大きな差があるため,入力単語列の確率計算ではアン ダーフローが生じ,正しく計算できない.そこで,確率を求める代りに を求める.よって,本研究で用いる2単語の連鎖確率は,以下の式で求 める.