next up previous contents
次へ: 要素技術について 上へ: 関連研究 戻る: 関連研究   目次

動詞を素性に利用する方法

徳久ら[1]は,「動詞を素性に利用する方法」で類似する体験談をまとめた.ブログ記事中から,体験を表す動詞を検出し,該当する文およびその前後の文を1つの体験文章として抽出した.すなわち,3文を1単位とした.また,「ブルーベリー狩り」のフレーズが出現した後半の部分に体験談が多いとし,後半から体験文章を抽出した.前半はブログの読者へのあいさつや経緯説明が多いとし,抽出しなかった.

抽出された「ブルーベリー狩り」に関する体験文章をクラスタリングを行なう際,k-means法[7]を用いた.類似する体験談を得るために,ベクトル化に動詞を素性に用いた.抽出した各体験文章中の動詞の有無をベクトルに用いた.また,キーワード抽出のためKeyGraph[3]で処理を行なった.キーグラフに名詞と動詞を文単位で入力に用いることで,クラスタ内の文章全体から主要な単語(動詞と名詞の組)を得る.

分析者が,文章を閲覧する際にはポジティブな情緒の推定された文章を中心にするとした.

結果として,元となる記事は,「ブルーベリー狩り」または「ブルーベリー摘み」の表現を含む文,642件,15,328文である.これから,記事の前半から文を閲覧対象から削除した.10,897文となった(4,431文削減,圧縮率71%).体験動詞に基づき,体験文章を1,382文章,4,146文を得た.全てのクラスタからポジティブな感情の推定される文章を閲覧することにすると,1,068文章,3,204文を得た(圧縮率21%).また,分析者は414文書1,242文を熟読した.



平成25年3月17日