一般ブログから旅行ブログエントリ(旅行について記述されたブログの1記事を旅行ブログエントリと呼ぶ)を検出し,観光情報を抽出する情報源として いる. 旅行ブログエントリの検出方法として,機械学習のCRFを用いている.
土産物情報,観光名所情報の抽出には,表層パターンと機械学習を用いている. 土産物リスト(地域名と土産物が対となったリスト)と観光名所リスト(地域名と 観光名所が対となったリスト)をGoogleから提供されている``Web日本語 グラ ム''データベースに表層パターンを当てはめ自動抽出を行う.このデータベース はWeb上に存在する20億文から抽出された グラム( =17)で構成されている. 使用している表層パターンを以下に示す.
抽出の結果,土産物リストには482対,観光名所リストには35,827対登録された.
機械学習の素性としては``旅行'',``ツアー''といった手掛かり語416個である. それらが各エントリに含まれるかどうかを機械学習器に与えている.
実験において土産物情報の抽出は,以下の式で評価されている.
旅行ブログにおいて,地域名と土産物の対の抽出は74.0%,地域名と観光名 所の対の抽出は71.0%とい う結果を示した.