2単語の連鎖確率は,単語列の確率の近似である.単語列の確率は,
という単語列の場合,以下の式により求める.
![]() |
![]() |
![]() |
|
![]() |
![]() |
この式を用いると,確率変数が多くなるにつれて言語モデルから該当回数が数 えられなくなるため近似を行う.2単語の連鎖確率は,以下の近似式とする.
それぞれの確率の計算方法は以下の通りである.
ただし,は出現回数である.
は言語モデル中の全ての単語数であ
り,
は単語
の出現回数であり,
は単語
と
がこの語順で連続して出現する回数
である.
ここで,未知語の入力がある場合または言語モデルにはない語順の場合は,
となる.しかし,原因として,言語モデルが不十分であるため,出現回数
が0となるのか,文法的・意味的に出現しえないのか判定ができない.そこで,
これらの場合には十分小さい確率を使用する.具体的には,以下の式を使用する.
また,分母と分子の値に大きな差があるため,入力単語列の確率計算ではアン
ダーフローが生じ,正しく計算できない.そこで,確率を求める代りに
を求める.よって,本研究で用いる2単語の連鎖確率は,以下の式で求
める.