正解データ

本研究で用いる正解データの元となるブログ記事は， 2010年11月1日14時22分の時点でヤフーブログの旅行カテゴリに登録されていた最新のブログ記事200件である．ただし，以下に示す例に該当したブログ記事は除外して，最新のものから順に200件を選択する．

日本語で書かれていないブログ記事

海外旅行について書かれているブログ記事

正解データの元となるブログ記事200件について，場所を判定する手がかりとなる単語に対し，人手でタグを挿入して正解データを作成する．このとき挿入するタグの形式を，以下に示す．

<pl name="都道府県名">手がかり語</pl>

人手で手がかり語を判定する際に，タグを付与する対象を定めた．タグの付与対象を以下に示す．

地名(島や山，峠，平野，半島，海，川，滝などの名称も含む)

施設名(ランドマークや道の駅，ホテル，温泉，飲食店，寺院，城などの名称も含む)

交通機関名(駅名や空港，港，電車，船，道路や路線の名称も含む)

構造物名(橋やトンネル，門や像など)

地域固有のイベント名(イベント，祭りなど)

タグを付与する際の条件を以下に示す．

付与対象の所在が明確な場合は，その所在に該当する都道府県名のタグを付与する．

付与対象の所在を判断するにあたり，Web検索などの地図情報および，ブログ記事内の文脈情報を考慮してよい．

複数都道府県にまたがる山や道，および複数都道府県にまたがる地域の名称(ex``九州",``瀬戸内")，または文脈上所在が判断できないチェーン店の店名など，付与対象が地名や施設名であることは読み取れるが，その所在が一都道府県に断定できない場合は，``*"を付与する．
しかし文脈上所在が断定できるときは，その都道府県名のタグを付与する．

タグは，地名および施設名であると判断できる文字列の最長に対して付与する．　(例：``鳥取県" ならば ``<pl>鳥取</pl>県" ではなく ``<pl>鳥取県</pl>" )

表

に作成した評価実験用正解データの統計情報を示す．表

に示すように，ブログ記事ごとに文字数や手がかり語の出現数など，大きくばらつく結果となった．ここで，総手がかり語数と総都道府県名数に差があるのは，ユニークに都道府県名を付与できず``*"を付与した手がかり語が存在するためである．

表: 正解データの統計情報
評価実験用データの統計情報	数値
総記事数	200件
総文字数	106,635文字
平均文字数	533.18文字
文字数の分散	252,341.62
総手がかり語数	1,497語
総都道府県名数	1,386件
最も文字数の多い記事の文字数	3,852文字
最も文字数の少ない記事の文字数	13文字
最も手がかり語の多い記事の手がかり語数	63個
最も手がかり語の少ない記事の手がかり語数	0個

平成23年3月3日