next up previous contents
次へ: ブログ記事単位での地名解析 上へ: 単語単位での地名解析 戻る: 都道府県名の曖昧性軽減の評価   目次

本手法の総合評価

本節では,本手法の総合性能を評価する. 正解データはヤフーブログから取得したブログ記事200件から作成したものである. 正解データにおいて手がかり語として判定したが都道府県名を断定できずに``*"を付与したものと, 手がかり語検出において都道府県名が不明で``*"が出力されたものは評価対象から除外する. このとき,正解データには検出すべき都道府県名が1,386件存在する.

適合率と再現率およびF値は以下のように定義する.

$\displaystyle 適合率 = \frac{正しい出力都道府県名数}{出力した都道府県名の総数}$      
$\displaystyle 再現率 = \frac{正しい出力都道府県名数}{正解データの都道府県名の総数}$      
$\displaystyle F値 = \frac{2 * (適合率 * 再現率)}{適合率 + 再現率}$      

[*]に,手掛かり語検出の評価方法に部分マッチを用いた時の都道府県名の曖昧性軽減を行ったときの適合率,再現率およびF値を示す. 表[*]には,手がかり語検出の際の品詞情報による抽出対象の区分ごとに, それぞれ都道府県名の曖昧性軽減を行う前と行った後について示している.


表: 都道府県名の曖昧性軽減の評価(部分マッチ)
抽出対象 軽減 適合率 再現率 F値
名詞 0.023(970/41409) 0.613(849/1386) 0.045
名詞 0.045(908/20194) 0.576(799/1386) 0.083
名詞,(一般or固有名詞) 0.034(897/26731) 0.590(818/1386) 0.064
名詞,(一般or固有名詞) 0.067(842/12557) 0.556(770/1386) 0.120
名詞,(一般or固有名詞)人名排除 0.034(781/22889) 0.517(717/1386) 0.064
名詞,(一般or固有名詞)人名排除 0.070(732/10423) 0.486(674/1386) 0.123
名詞,固有名詞,(一般or地域) 0.114(646/ 5675) 0.437(606/1386) 0.181
名詞,固有名詞,(一般or地域) 0.281(615/ 2185) 0.417(578/1386) 0.336

[*]に,手掛かり語検出の評価方法に完全マッチを用いた時の都道府県名の曖昧性軽減を行ったときの適合率,再現率およびF値を示す. 表[*]には,手がかり語検出の際の品詞情報による抽出対象の区分ごとに, それぞれ都道府県名の曖昧性軽減を行う前と行った後について示している.


表: 都道府県名の曖昧性軽減の評価(完全マッチ)
抽出対象 軽減 適合率 再現率 F値
名詞 0.011(442/41409) 0.319(442/1386) 0.021
名詞 0.021(426/20194) 0.307(426/1386) 0.039
名詞,(一般or固有名詞) 0.017(442/26731) 0.319(442/1386) 0.031
名詞,(一般or固有名詞) 0.034(426/12557) 0.307(426/1386) 0.061
名詞,(一般or固有名詞)」人名排除 0.017(393/22889) 0.284(393/1386) 0.032
名詞,(一般or固有名詞)」人名排除 0.036(378/10423) 0.273(378/1386) 0.064
名詞,固有名詞,(一般or地域) 0.063(356/ 5675) 0.257(356/1386) 0.101
名詞,固有名詞,(一般or地域) 0.158(345/ 2185) 0.249(345/1386) 0.193


next up previous contents
次へ: ブログ記事単位での地名解析 上へ: 単語単位での地名解析 戻る: 都道府県名の曖昧性軽減の評価   目次
平成23年3月3日