next up previous contents
Next: 個別的な情報の抽出 Up: 関連研究 Previous: 関連研究   目次

観光情報の抽出

ブログを情報のソースとして,観光情報を抽出する先行研究には,石野らの研究があ る[1]. 石野らは``旅行ブログエントリからの観光情報の自動抽出''において日記形式で綴られた旅行ブログエントリに焦点をあて,ブログデータベー スから旅行ブログエントリを検出した.そこから観光情報として土産物情報および観光名 所情報を抽出する手法を提案した. さらに,旅行ブログエントリからリンクを抽 出することで,観光情報のリンク集を構築した.

一般ブログから旅行ブログエントリ(旅行について記述されたブログの1記事を旅行ブログエントリと呼ぶ)を検出し,観光情報を抽出する情報源として いる. 旅行ブログエントリの検出方法として,機械学習のCRFを用いている.

土産物情報,観光名所情報の抽出には,表層パターンと機械学習を用いている. 土産物リスト(地域名と土産物が対となったリスト)と観光名所リスト(地域名と 観光名所が対となったリスト)をGoogleから提供されている``Web日本語$ N$ グラ ム''データベースに表層パターンを当てはめ自動抽出を行う.このデータベース はWeb上に存在する20億文から抽出された$ N$ グラム($ N$ =17)で構成されている. 使用している表層パターンを以下に示す.

抽出の結果,土産物リストには482対,観光名所リストには35,827対登録された.

機械学習の素性としては``旅行'',``ツアー''といった手掛かり語416個である. それらが各エントリに含まれるかどうかを機械学習器に与えている.

実験において土産物情報の抽出は,以下の式で評価されている.

$\displaystyle \frac{正しく抽出された地域名と(土産物or観光名...
...}{抽出された地域名
と(土産物or観光名所)の対} \times 100 [\%]$

旅行ブログにおいて,地域名と土産物の対の抽出は74.0%,地域名と観光名 所の対の抽出は71.0%とい う結果を示した.



2013-02-23