next up previous contents
次へ: 先行研究の問題点 上へ: 先行研究 戻る: 先行研究   目次

先行研究の概要

安田ら[1]は,ブログ記事からブログ作者の居住域の推定を行った. まず,地名辞書を作成し,地名を含む文をブログ記事から抽出した. 地名辞書は,goo地域情報サイトの各都道府県の主要エリア名,国内観光情報サイトの分類に基づく地名(ランドマーク名や施設名を含む),および郵便番号データを用いて作成した. 次に,抽出した文に対し,その地名がブロガーの居住域にあるかどうかを二値分類器を用いて分類を行った. ここで,二値分類器の学習には,地名の周囲の文脈を用い,地名そのものは用いない. よって,地名辞書に変更があっても,分類器の訓練をやり直す必要がないと期待できる. 評価実験として,比較用の素朴な手法であるブログ記事中に出現した地名が所属する都道府県の中で最も出現回数が多かった都道府県に決定する手法と,上記の提案手法を比較した. ブログ記事中に出てきた地名が所属する都道府県の中で最も出現回数が多かった都道府県に決定する手法は精度48.2%, 二値分類器を用いる提案手法は精度50.7%となった. 提案手法によって,素朴な手法を用いるより精度が2.5%向上することを示した.



平成23年3月3日