next up previous contents
Next: 目次 Up: honron Previous: honron   目次

概要

Webから情報の収集が行われている.そのソースは,ブログ,掲示板,SNSなどで ある. 先行研究として,石野らはブログエントリから,パターンと機械学習を用いて,お 土産情報として,お土産名,および,その観光名所名のペアの抽出を行った [1]. 一方,掲示板やSNSを対象とすると,1つ1つの書き込み(以降レスと呼ぶ)は短 く,情報が小出しになっている.そのため,幾つかのレスをつなげて 読むことで情報を得るという方法をとる必要がある.

そこで,本研究ではインターネット掲示板からお土産情報の抽出を行う. 特に,複数のレスから情報を集約することを目的とする.そのために,まず,明示的なレスの宛先を利用してス レッドの構造を有向グラフで表す.次に,各レスから情報を抽出する.最後に, 有向辺をたどり,情報の集約を行う.実験では,集約の有無による性能の違いを 確認をする.掲示板「2 ちゃんねる」のレス100件を対象として「商品名」,「場所名」,および,「評価情報」 の3つ組情報を抽出して,情報の集約を行った.人手により作成した正解データとの比較におい て,集約を行わない場合は,適合率0.22,再現率0.50,および,F値0.27であったところ, 集約を行った場合は,適合率0.24,再現率0.55,および,F値0.30となった.こうして, 集約による抽出性能の向上を確認した.



2013-02-23