next up previous contents
次へ: 本手法の総合評価 上へ: 単語単位での地名解析 戻る: 手がかり語検出の評価   目次

都道府県名の曖昧性軽減の評価

本節では,都道府県名の曖昧性軽減の性能の評価を示す. 正解データはヤフーブログから取得したブログ記事200件から作成したものである. ここでは,都道府県名の曖昧性軽減の評価を純粋に行うために,手がかり語検出において正しく検出できた手がかり語のみを評価対象とする. さらに,正解データにおいて手がかり語として判定したが都道府県名を断定できずに``*"を付与したものと, 手がかり語検出において都道府県名が不明で``*"が出力されたものは評価対象から除外する. このように評価対象を限定したとき,例えば抽出対象が「名詞,固有名詞,地域 or 名詞,固有名詞,一般」の場合に部分マッチで評価を行ったとき, 正しく検出できた手がかり語は[*]節の表[*]より863件である. その中で正解データにおいて都道府県名に``*"が付与されているものを除くと,ここで検出すべき都道府県名は701件存在するということになる.

適合率と再現率およびF値は以下のように定義する.

$\displaystyle 適合率 = \frac{正しい出力都道府県名数}{出力した都道府県名の総数}$      
$\displaystyle 再現率 = \frac{正しい出力都道府県名数}{正解データの都道府県名の総数}$      
$\displaystyle F値 = \frac{2 * (適合率 * 再現率)}{適合率 + 再現率}$      

[*]に,評価方法に部分マッチを用いたときに正しく検出できたと判定された手がかり語について, 都道府県名の曖昧性軽減を行ったときの適合率,再現率およびF値を示す.


表: 都道府県名の曖昧性軽減(評価範囲限定,部分マッチ)の評価
入力データの抽出対象 軽減 適合率 再現率 F値
名詞 0.080(970/12082) 0.771(849/1101) 0.145
名詞 0.191(908/ 4764) 0.726(799/1101) 0.302
名詞,(一般or固有名詞) 0.099(897/ 9098) 0.793(818/1032) 0.175
名詞,(一般or固有名詞) 0.233(842/ 3611) 0.746(770/1032) 0.355
名詞,(一般or固有名詞)人名排除 0.098(781/ 7979) 0.765(717/ 937) 0.174
名詞,(一般or固有名詞)人名排除 0.234(732/ 3129) 0.719(674/ 937) 0.353
名詞,固有名詞,(一般or地域) 0.164(646/ 3949) 0.864(606/ 701) 0.275
名詞,固有名詞,(一般or地域) 0.431(615/ 1428) 0.825(578/ 701) 0.566

[*]には,手がかり語検出の際の品詞情報による抽出対象の区分ごとに, それぞれ都道府県名の曖昧性軽減を行う前と行った後について示している. 抽出対象が「名詞,固有名詞,一般 or 名詞,固有名詞,地域」の場合の評価において, 都道府県名の曖昧性軽減を行う前の適合率が0.164と低く,1つの手がかり語に対して大量の都道府県名を出力してしまっていることが分かる. しかし,都道府県名の曖昧性軽減を行う前から再現率は0.864と高いため,大量に出力してしまった都道府県名の中に,正解の都道府県名が含まれている率は高いことが分かる. 都道府県名の曖昧性軽減を行う前と行った後で再現率は0.864から0.825へわずかに下がっているが,適合率が0.164から0.431へと大幅に上昇しているため, 都道府県名の曖昧性軽減の有効性が確認できる. また,適合率の分子と再現率の分子の値が異なるのは,一つの正解手がかり語に対して複数回手がかり語検出を行ったときに, 複数回検出した手がかり語において正解都道府県名が出力できていれば,複数回正解としているからである.

[*]に,評価方法に完全マッチを用いたときに正しく検出できたと判定された手がかり語について, 都道府県名の曖昧性軽減を行ったときの適合率,再現率およびF値を示す. 表[*]には,手がかり語検出の際の品詞情報による抽出対象の区分ごとに, それぞれ都道府県名の曖昧性軽減を行う前と行った後について示している.


表: 都道府県名の曖昧性軽減(評価範囲限定,完全マッチ)の評価
入力データの抽出対象 軽減 適合率 再現率 F値
名詞 0.234(442/1887) 0.940(442/470) 0.375
名詞 0.537(426/ 793) 0.906(426/470) 0.675
名詞,(一般or固有名詞) 0.234(442/1887) 0.940(442/470) 0.375
名詞,(一般or固有名詞) 0.537(426/ 793) 0.906(426/470) 0.675
名詞,(一般or固有名詞)人名排除 0.235(393/1671) 0.952(393/413) 0.377
名詞,(一般or固有名詞)人名排除 0.582(378/ 650) 0.915(378/413) 0.711
名詞,固有名詞,(一般or地域) 0.247(356/1444) 0.954(356/373) 0.392
名詞,固有名詞,(一般or地域) 0.570(345/ 605) 0.925(345/373) 0.706


next up previous contents
次へ: 本手法の総合評価 上へ: 単語単位での地名解析 戻る: 手がかり語検出の評価   目次
平成23年3月3日