next up previous contents
次へ: 手がかり語検出の評価 上へ: 単語単位での地名解析 戻る: 単語単位での地名解析   目次

正解データ

本節では,単語単位での地名解析の評価実験を行う際に用いる正解データの作成方法について説明する.

本研究で用いる正解データの元となるブログ記事は, 2010年11月1日14時22分の時点でヤフーブログの旅行カテゴリに登録されていた最新のブログ記事200件である. ただし,以下に示す例に該当したブログ記事は除外して,最新のものから順に200件を選択する.

正解データの元となるブログ記事200件について,場所を判定する手がかりとなる単語に対し,人手でタグを挿入して正解データを作成する. このとき挿入するタグの形式を,以下に示す.

タグのname欄に記述される都道府県名は,ユニークに判定できればその都道府県名を記述する. ユニークに判定できず,複数の都道府県に存在する可能性がある場合は,"*"を記述する.

人手で手がかり語を判定する際に,タグを付与する対象を定めた. タグの付与対象を以下に示す.

タグを付与する際の条件を以下に示す.

[*]に作成した評価実験用正解データの統計情報を示す. 表[*]に示すように,ブログ記事ごとに文字数や手がかり語の出現数など,大きくばらつく結果となった. ここで,総手がかり語数と総都道府県名数に差があるのは,ユニークに都道府県名を付与できず``*"を付与した手がかり語が存在するためである.


表: 正解データの統計情報
評価実験用データの統計情報 数値
総記事数 200件
総文字数 106,635文字
平均文字数 533.18文字
文字数の分散 252,341.62
総手がかり語数 1,497語
総都道府県名数 1,386件
最も文字数の多い記事の文字数 3,852文字
最も文字数の少ない記事の文字数 13文字
最も手がかり語の多い記事の手がかり語数 63個
最も手がかり語の少ない記事の手がかり語数 0個



平成23年3月3日