推定する2段落以前の文章に対して, 1段落目(または2段落目)に出現する新規単語の数X(またはY)を求める. X-Yを行い,その値が0未満か,0より大(超過)かを示す素性を付与する. ここで用いる品詞は素性a1同様,名詞,形容詞,形容動詞,動詞,副詞,連体詞,接続詞とする. データ内では,「LR新規:0超過」または「LR新規:0未満」として 素性を組み込んでいる5.9.
図5.9のように, 以前の段落と推定段落A,Bが与えられたとする. 以前の段落と各段落との単語の共起数をそれぞれ求め(4),(3), その値から以前の段落に対し各段落にのみ出現する単語の数を求める(14),(26). 求められた2つの値の差によって得られた値(12)を場合わけし素性として組み込む.