段落分割推定したい文章があるとする.その文章中の1文目以降の全ての文と文の間の箇所を「?」とし,その位置が段落箇所であるか否かを機械学習で推定する.図3.1のように,ある文とその文の直前の1文を入力として,それらの文の間の箇所が段落分割位置であるか否かを出力とする.
元々段落分けされていた文章の段落を取り除いて学習データとすることで,機械学習が段落だと決めた箇所が正しいかを判断することができ,そこから導き出される正解率を求める.また本研究で推定する形式段落は,文頭を1文字下げた箇所を形式段落段落段落と定義する.