next up previous contents
次へ: 非文法的かつ断片化されたテキストの頑健な分類 上へ: 関連研究 戻る: 関連研究   目次


ブログとニュース記事の自動対応付け

池田らはブログとニュース記事という内容の性質が異なる文書間の対応付けを行った.ブログには,ニュースを特定できる程度の情報と,主にそれに対する書き手の意見や感想が書かれている.対して,ニュース記事は,タイトルでニュースの全体像が,最初の一文で内容のサマリがそれぞれ書かれている.これらの特徴を利用してブログ中の語全てからブログベクトルを,ニュース記事のタイトルと最初の1文から特徴語ベクトルを生成し,両ベクトル間の類似度に基づき,ニュースについて言及しているブログというニュース記事とブログの組を求めた.

平成23年4月13日