連接2段落対の場合は記事内のあらゆる連接する2段落の対を用いて,2段落1組を作成する. 作成した組において, 抽出した時の元の順序(正順)と その逆順を学習データ,テストデータそれぞれ作成する. 学習データには段落対に用いた順序をそれぞれの段落対に付与し, テストデータもまた学習データ同様各段落対に順序をそれぞれの段落対に付与するが, テストデータの場合は教師あり機械学習からの出力による推定結果との正誤の際に用いる.
また,連接2段落対の場合は記事中の中間の段落も用いる.片方の段落に接続詞や連体詞が出現したとしても これらの品詞が指し示す順序を推定することは困難である. ゆえに,連接2段落対の場合は素性a3を用いない.
図7.2の場合を例に挙げると, 図7.1の場合同様, 変数AからCは段落であり, (A,B,C)で1記事とし, 順序は上から順になるとする時, 抽出される連接2段落対は, (A&B)と(B&C)になる. 抽出された2段落対(:A&B)から正順(:A→B)と逆順(:B→A)とそれぞれ入出力データとして 学習データを作成する.また連接2段落対を用いる場合なので,以前の段落も用いることができる. そのため,推定段落が(B,C)の時に使用可能な段落は(A,B,C)となる.