本研究で用いる正解データの元となるブログ記事は, 2010年11月1日14時22分の時点でヤフーブログの旅行カテゴリに登録されていた最新のブログ記事200件である. ただし,以下に示す例に該当したブログ記事は除外して,最新のものから順に200件を選択する.
正解データの元となるブログ記事200件について,場所を判定する手がかりとなる単語に対し,人手でタグを挿入して正解データを作成する. このとき挿入するタグの形式を,以下に示す.
<pl name="都道府県名">手がかり語</pl>
人手で手がかり語を判定する際に,タグを付与する対象を定めた. タグの付与対象を以下に示す.
タグを付与する際の条件を以下に示す.
<pl>鳥取</pl>県
" ではなく ``<pl>鳥取県</pl>
" )
表に作成した評価実験用正解データの統計情報を示す. 表に示すように,ブログ記事ごとに文字数や手がかり語の出現数など,大きくばらつく結果となった. ここで,総手がかり語数と総都道府県名数に差があるのは,ユニークに都道府県名を付与できず``*"を付与した手がかり語が存在するためである.
評価実験用データの統計情報 | 数値 |
総記事数 | 200件 |
総文字数 | 106,635文字 |
平均文字数 | 533.18文字 |
文字数の分散 | 252,341.62 |
総手がかり語数 | 1,497語 |
総都道府県名数 | 1,386件 |
最も文字数の多い記事の文字数 | 3,852文字 |
最も文字数の少ない記事の文字数 | 13文字 |
最も手がかり語の多い記事の手がかり語数 | 63個 |
最も手がかり語の少ない記事の手がかり語数 | 0個 |