next up previous contents
次へ: 関連研究 上へ: tuno4 戻る: 表一覧   目次

はじめに

ブログ記事は,近年巨大な情報源として注目されている. 一般に,ブログ記事は,本文の部と0個以上のコメント部というように 大きくブロックの単位で構成されている. 本文部には,ブログ著者の持つ情報が記述されており, コメント部には,ブログ著者とブログ閲覧者の対話が記述されている. コメント部の対話には,本文で記述されなかった新たな事柄が追加されている. そのため,ブログ記事からの情報収集では,本文部だけでなくコメント部も参照することが望ましい. しかし,コメント部では,省略された表現が多いため, 何に対する追加情報なのかが不明確である. そこで,本研究では,対象を明確にするため, 本文部へのコメントであるか,あるいは, 別の先行するいずれのコメント部へのコメントであるか というブロックの単位でのコメント先の解析(コメント先を計算機により自動で特定させること)を目標とする.

ブロック単位でのコメント先の解析は, 複数文で構成されるもの同士の対応関係,すなわち,記事対応の問題と類似している. 池田らは,ニュースについて言及されたブログ記事と, そのニュース記事との対応付けに, ニュース記事の特徴語ベクトルとブログ記事の特徴ベクトルの コサイン類似度を用いた[1].一方,関連文の類似度を計算する方法の一つとして,荒牧らは,単語 n-gram に対して Okapi-BM25 を用いた[2]. ここで,特徴ベクトルとOkapi-BM25を用いる方法を比べると, 2つの文に含まれる共通語から特徴度が計算されるという点で共通しているが, Okapi-BM25の場合,さらに,他の文書と比べた特徴語の出現の仕方が影響するという点で異なる. 本研究では,Okapi-BM25を用いる手法を採用する.

ブログのコメントの特徴について,もう少し考えてみると,次のことが言える.

そこで,関連研究の対応付けの方法の他に,ブログ記事の慣習的特徴を利用する手法,および, ブログの意図伝達に着目する手法が考えられる.そこで,これらを決定リストで組み合わせた手法を,本研究で提案する.

本論文の構成は以下のとおりである.第2章では関連研究及びOkapi-BM25計算式について述べる.第3章では提案手法,ならびに,コメント先解析システムについて述べる.第4章では人手により作成した正解データとコメント先解析システムによる出力結果を比較して,適合率,再現率,$ F$ 値による性能評価を行い,第5章にて各手法についての考察を述べる.最後に第6章でまとめを述べる.



平成23年4月13日