確率モデルに基づく従来手法と比較するために,
確率手法でも文の順序推定を行う.
確率手法とは,Lapata[2]の手法を参考にしたものであり,
以下に確率手法の詳細を述べる.
確率算出用の文書にある連接する2文から,それぞれの文に含まれる単語を抜き出す.
1文目の単語と2文目の単語のペアを作成し,
1文目に1文目の単語がある場合に2文目に2文目の単語がある生起確率を求める.
そして,求めた生起確率の総積から
1文目の文がある場合の2文目の文の生起確率(以降,文の生起確率という)を算出する.
本研究では2文の組において順序の推定を行うため,
2文から正順と逆順を作成し,
正順の場合の文の生起確率と,
逆順の場合の文の生起確率を求め,
大きい方を正しい順番と推定する.
は文
を構成する単語を表し,
と
が
連接する2文に出現する確率は次式で表すことができる.
![]() |
(5.1) |
は
単語
がある文の次の文に単語
が出現する頻度である.