本研究ではブログデータから抽出した素性をSVMの学習および分類に用いる.本研究に用いる素性は以下の通りである.これらの素性が抽出された例を表3.1に示す.
ブログ文に対して形態素解析を行うことにより各種品詞を抽出し,それを素性とする.素性として用いる品詞は,記号,名詞,動詞,形容詞,形容動詞,副詞,接続詞,感動詞,接辞,助詞とする.
まず,BM25を用いて各単語の特徴度[1]を求め,その中から特徴度が2以上の単語の集合(以下,特徴語を呼ぶ)を求める.次に,ブログ文中に特徴語10#10 が含まれていた場合,11#11 の形で素性としてデータに追加する.また,一文中に特徴語となる複数含まれている場合は,全てを素性として追加する.特徴度は[1]と同様の手法を用いて算出する.
12#12
まず,各文に対して情緒推定[1]を行う.出力された「喜び」,「好ましい」,「恐れ」,「嫌だ」,「怒り」,「期待」,「驚き」,「悲しみ」,「なし」の9分類の情緒13#13 を14#14 の形で素性としてデータに追加する.また,情緒推定により複数の情緒が出力された場合はそれらを全て追加する.情緒推定は[1]と同様の手法を用いて行う.
15#15
ブログ文 | 抽出された素性 |
蓮華温泉は例年、雪が降る頃の10月中旬に閉鎖されます。 | 蓮華温泉/は/例年/、/雪 が/降る/頃/の/10月/中旬/に/閉鎖する/れる/ます/。/C:蓮華温泉/E:悲しみ |
糸魚川に入ると「フォッサマグナ」と言う文字を良く見ます | 糸魚川/に/入る/と/「/フォッサマグナ/」/言う/文字/を/良く/見る/ます/C:糸魚川/C:フォッサマグナ/E:好ましい/E:嫌だ/E:期待/E:恐れ |