次へ: 3.記事内全てから2段落を用いる組み合わせの対の順序を推定する場合(Case3)
上へ: 入力データの種類
戻る: 1.記事内の最初の2段落のみを用いる場合
目次
入力データが連接2段落対の場合では,記事内のあらゆる連接する2段落の対を用いて,2段落1組を作成する.
作成した組において,作成に用いた記事での正順とその逆順を学習データ,テストデータそれぞれ作成する.学習データには段落対に用いた順序タグをそれぞれの事例に付与し,テストデータもまた学習データ同様,各事例に順序タグをそれぞれの事例に付与するが,テストデータの場合は機械学習からの出力による推定結果との正誤判定の際に用いる.
図7.2を例に挙げると,段落A,B,Cの順序からなる1つの記事から,
抽出される連接2段落対は記事内のあらゆる連接する2段落対であるため,
(A,B),(B,C)となる.
抽出された2段落対(:A,B)から正順(:A→B)と逆順(:B→A)を
それぞれ入出力データとして学習データ,テストデータを作成する
((B,C)からは正順(:B→C)と逆順(:C→B)を作成).
また,連接2段落対を用いる場合なので,順序推定に用いることのできる情報は(A,B)の場合は推定段落(A,B)となり,(B,C)の場合は推定段落(B,C)と以前の段落Aの(A,B,C)となる.
平成27年3月4日