next up previous contents
次へ: 2.記事内のあらゆる連接する2段落を用いる場合(Case2) 上へ: 入力データの種類 戻る: 入力データの種類   目次

1.記事内の最初の2段落のみを用いる場合

入力データが先頭2段落対の場合では,記事内の最初の2段落のみの対を用いて,2段落1組を作成する. 作成した組において,作成に用いた記事での元の順序(正例)とその逆順(負例)を学習データ,テストデータそれぞれ作成する.学習データには段落対に用いた正解の順序タグをそれぞれの事例に付与し,テストデータもまた学習データ同様,各事例に順序タグをそれぞれの事例に付与するが,テストデータの場合は機械学習からの出力による推定結果との正誤判定の際に用いる.

記事内の先頭2段落であり,推定する2段落対以前の段落が存在しないので,推定する2段落以前の情報を用いる素性(素性a12から素性a21,素性b26から素性b29)を用いることができない.

図: 入力データ:先頭2段落対を用いる場合(Case1)
\includegraphics[width=13.5cm]{sento1.eps}

7.1を例に挙げると,段落A,B,Cの順序からなる1つの記事から, 抽出される先頭2段落対は記事内の初めの2段落対であるため, (A,B)になる. 抽出された2段落対(:A,B)から正順(:A→B)と逆順(:B→A)を それぞれ入出力データとして学習データ,テストデータを作成する. また,先頭2段落対を用いる場合なので,順序推定に用いることができる情報は推定段落(A,B)となる.



平成27年3月4日