機械学習で用いられる個々の情報のことは素性と呼ばれる.
教師あり機械学習法ではこの素性の設定が重要になる.
本研究で用いた素性を表に示す.
ただし,素性が2文のうちの1文目と2文目のどちらで出現したかを区別する.
1文目の素性ならば「L」,2文目の素性ならば「R」という接頭語を
素性に付与して区別する.
単語や品詞の取得にはChaSen[6]を用いる.
各素性の詳細な説明を次ページより行う.
素性 | 説明 |
f1 | 文内で出現する単語とその品詞 |
f2 | 文内で出現する単語の品詞 |
f3 | 文の主語省略の有無 |
f4 | 文が体言止めで終わっているかいなか |
f5 | 文内で最初に出現した助詞「は」で文を区切り,その前部で出現した単語とその品詞 |
f6 | 文内で最初に出現した助詞「は」で文を区切り,その後部で出現した単語とその品詞 |
f7 | 1文目と2文目で使用されている助詞の対 |
f8 | 1文目と2文目の単語の共起数 |
f9 | 1文目においてのf6と2文目においてのf5が一致した度合い |
f10 | 同じ段落内で,文の順序を判定する2文以前の文に出現する単語とその品詞 |
f11 | 同じ段落内で,文の順序を判定する2文の直前の文が体言止めで終わっているかいなか |
f12 | 同じ段落内で,文の順序を判定する2文の直前の文の主語が省略されているかいなか |
f13 | 同じ段落内で,文の順序を判定する2文の直前の文との自立語が一致した度合い |