Webから情報の収集が行われている.観光情報においては網羅性が高く,最新の 観光情報を得られることや,ローカルな口コミ情報を得られることなどから注目されている.
そのソースはブログ,掲示板,SNSなどである.先行研究ではブログエントリを対象として「旅行ブログエントリからの観光情報の自動抽出」が石野らにより行われている.
一方で,最近ではマイクロブログと呼ばれる情報源も注目されている.掲示板や マイクロブログは1つ1つの書き込み(以降レスと呼ぶ)は短く,情報が小出しになっている.そ のため,幾つかのレスをつなげて読むことで,情報を得るという方法をとる必要 がある.
そこで,本研究では掲示板を対象にして,お土産情報の抽出というタスクの実現 を目的とする.特に,小出しにされた情報の集約に焦点をあてる.
レスをつなげて読むために,まず,各レスにおける宛先を決定しなければならない.レ スには明示的に宛先を示すことがある.これを利用することで,レス の宛先を決定することができる.次にレスからの情報抽出を行い,レスごと のお土産情報を得る.最後に,宛先を利用して各レスの情報を集約することでより正確な情報を抽出することができると考えられる.
実験では掲示板「2ちゃんねる」を対象として,宛先の明示されたレスの割合を確認し, レスからの情報の抽出とその集約の性能の評価を 行う.
最後に,実験結果を考察することで誤り解析と今後の課題を述べる.