next up previous contents
次へ: a1:段落内に出現する品詞とその単語 上へ: honron1 戻る: データ作成   目次

用いる素性

機械学習で用いられる識別用の情報のことを素性といい, 機械学習は与えられたデータを用いて上手く識別できるような素性を学習する. 本論文で用いる素性を表5.1に示す. 素性は推定する2段落のうちどちらに出現したかを区別して用いる. 品詞や単語の情報の取得には形態素解析システムのChaSen[9]を用いる.

各素性の詳細な説明を表5.1に示す.



表: 素性
素性  説明
a1  段落内に出現する品詞とその単語
a2  段落内各文において,助詞「は」で文を区切り,その前部・後部で出現する品詞とその単語
a3  段落内文頭に連体詞や接続詞が出現するか否か
a4  段落内に日付けが出現するか否か
a5  1段落目と2段落目に出現する名詞が一致した数
a6  1段落目と2段落目に出現する名詞が一致した数を2段落目に出現する名詞の数で引いた数
a7  素性a6の値と推定する2段落を入れ替えた場合のa6の2つの差
a8  1段落目に出現する名詞と2段落目の素性a2の前部に出現する名詞が一致した数
a9  1段落目に出現する名詞と2段落目の素性a2の前部に出現する名詞が一致した数を2段落目のa2の前部に出現する名詞の数で引いた数
a10  素性a8の値と推定する2段落を入れ替えた場合のa8の値の2つの差
a11  素性a9の値と推定する2段落を入れ替えた場合のa9の値の2つの差
a12  推定する2段落以前の段落と1,2段落目に出現する名詞が一致した数
a13  推定する2段落以前の段落と1,2段落目に出現する名詞が一致した数を各段落に出現する名詞の数で引いた数
a14  素性a12の値と推定する2段落を入れ替えた場合のa12の値の2つの差
a15  素性a13の値と推定する2段落を入れ替えた場合のa13の値の2つの差
a16  推定する2段落以前の段落に出現する名詞と1,2段落目の素性a2の前部に出現する名詞が一致した数
a17  推定する2段落以前の段落に出現する名詞と1,2段落目の素性a2の前部に出現する名詞が一致した数を各段落のa2の前部に出現する名詞の数で引いた数
a18  素性a16の値と推定する2段落を入れ替えた場合のa16の値の2つの差
a19  素性a17の値と推定する2段落を入れ替えた場合のa17の値の2つの差
a20  1段落目と2段落目に出現する,推定する以前の段落に出現せず,かつ初めて出現する単語(以下新規単語)の数の差
a21  1段落目に出現する新規単語と2段落目に出現する新規単語の比率の差



Subsections
next up previous contents
次へ: a1:段落内に出現する品詞とその単語 上へ: honron1 戻る: データ作成   目次
平成25年2月12日