学習データ内の各事例の形式は「どちらが先か@推定段落1☆推定段落2 素性」であり, データ内では1行につき1事例が付与されている. 形式内の各項目について以下説明する. 「どちらが先か」は事例に対する正解タグを示し, 「推定段落1」及び「推定段落2」は入力となる推定する2段落の対を表し, 段落1→2の順で入力に与えている.「@」,「☆」,「 (半角スペース)」は 各文字列の区切りを示し,以下素性は1個につき半角スペースでわけている. テストデータ内の形式は「どちらが先か@用いる素性 素性1個」であり, 学習データの形式の各項目同様の部分は省略する. 「@」以降の「用いる素性」はその事例に付与された「素性1個」を示す.
図8.1を例にすると, 学習データ内の3事例に付与された10個の素性から 各事例に付与された素性が1個のみとなる事例を10個作成する.