next up previous contents
次へ: 目次 上へ: tuno4 戻る: tuno4   目次

概要

ブログ記事は,近年巨大な情報源として注目されている. ブログ記事は,本文の部と0個以上のコメント部というように 大きくブロックの単位で構成されている. 本文部には,ブログ著者の持つ情報が記述されており, コメント部には,ブログ著者とブログ閲覧者の対話が記述されている. コメント部の対話には,本文で記述されなかった新たな事柄が追加されている. そのため,ブログ記事からの情報収集では,本文部だけでなくコメント部も参照することが望ましい. しかし,コメント部では,省略された表現が多いため, 何に対する追加情報なのかが不明確である.

そこで,本研究では,対象を明確にするため, 本文部へのコメントであるか,あるいは, 別の先行するいずれのコメント部へのコメントであるか というブロックの単位でのコメント先の解析を行う. 関連文の類似度を計算する方法の一つとして,荒牧らは,単語 n-gram に対して Okapi-BM25 を用いた.そこで,関連研究の対応付けの方法の他に,ブログ記事の慣習的特徴を利用する手法,および, ブログの意図伝達に着目する手法を決定リストで組み合わせた手法を利用してコメント先解析システムを作成した.

Amebaブログからランダムに収集したブログ記事32件,ブロック数255件,コメント元件数は224件を利用して,人手により作成した正解データと解析システムによる出力を比較した. その結果,適合率$ 0.64$ ,再現率$ 0.63$$ F$$ 0.64$ という性能評価を得た.



平成23年4月13日