next up previous contents
次へ: a1:段落内に出現する品詞とその単語 上へ: honron1 戻る: データ作成   目次

提案手法に用いる素性

機械学習で用いられる識別用の特徴のことを素性といい, 機械学習は与えられたデータを用いて入力を正しく出力できるような素性を学習する. 本論文での素性は,推定する2段落のうち,どちらに出現したかを区別して用いる (推定段落A,Bをそれぞれ推定段落L,Rとも表記する). 品詞や単語の情報の取得には形態素解析システムの『茶筅』[10]を用いる. 本論文で用いる素性を表5に示す(bは本論文で拡充した素性を示す). 素性の説明を以下に示す.


表: 素性リスト
素性ID  素性の説明
a1  段落内に出現する品詞とその単語
a2  段落内各文において,助詞「は」で文を区切り,その前部・後部で出現する品詞とその単語
a3  段落内文頭に連体詞や接続詞が出現するか否か
a4  段落内に日付けが出現するか否か
a5  1段落目と2段落目に出現する名詞が一致した数
a6  2段落目に出現する名詞の数から1段落目と2段落目に出現する名詞が一致した数で引いた数
a7  素性a6の値と推定する2段落を入れ替えた場合の素性a6の2つの差
a8  1段落目に出現する名詞と2段落目の素性a2の前部に出現する名詞が一致した数
a9  2段落目の素性a2の前部に出現する名詞の数から1段落目に出現する名詞と2段落目の素性a2の前部に出現する名詞が一致した数で引いた数
a10  素性a8の値と推定する2段落を入れ替えた場合の素性a8の値の2つの差
a11  素性a9の値と推定する2段落を入れ替えた場合の素性a9の値の2つの差
a12  推定する2段落以前の段落と1,2段落目に出現する名詞が一致した数
a13  各段落に出現する名詞の数から推定する2段落以前の段落と1,2段落目に出現する名詞が一致した数で引いた数
a14  素性a12の値と推定する2段落を入れ替えた場合の素性a12の値の2つの差
a15  素性a13の値と推定する2段落を入れ替えた場合の素性a13の値の2つの差
a16  推定する2段落以前の段落に出現する名詞と1,2段落目の素性a2の前部に出現する名詞が一致した数
a17  各段落の素性a2の前部に出現する名詞の数から推定する2段落以前の段落に出現する名詞と1,2段落目の素性a2の前部に出現する名詞が一致した数で引いた数
a18  素性a16の値と推定する2段落を入れ替えた場合の素性a16の値の2つの差
a19  素性a17の値と推定する2段落を入れ替えた場合の素性a17の値の2つの差
a20  1段落目と2段落目に出現する,推定する以前の段落に出現せず,かつ初めて出現する単語(以下新規単語)の数
a21  1段落目に出現する新規単語数と2段落目に出現する新規単語数との比率




素性ID  素性の説明
b22  1段落目の最後の文に出現する単語と2段落目の最初の文に出現する単語の一致した数
b23  素性b22の値と推定する2段落を入れ替えた場合の素性b22との比率
b24  段落内の単語の出現位置を用いた場合における1段落目に出現する単語と2段落目に出現する単語の一致した数
b25  素性b24の値と推定する2段落を入れ替えた場合の素性b24の値との比率
b26  以前の段落の最後の文に出現する単語と推定する各段落の最初の文に出現する単語の一致した数
b27  素性b26の値と推定する2段落を入れ替えた場合の素性b26との比率
b28  段落内の単語の出現位置を用いた場合における以前の段落に出現する単語と推定する各段落に出現する単語の一致した数
b29  素性b28の値と推定する2段落を入れ替えた場合の素性b28の比率



Subsections
next up previous contents
次へ: a1:段落内に出現する品詞とその単語 上へ: honron1 戻る: データ作成   目次
平成27年3月4日