next up previous contents
次へ: 都道府県名の曖昧性軽減の評価 上へ: 単語単位での地名解析 戻る: 正解データ   目次


手がかり語検出の評価

本節では,手がかり語検出の性能の評価を示す. 正解データはヤフーブログから取得したブログ記事200件から作成したものである. 正解データには検出すべき手がかり語が1,497件存在する.

適合率と再現率およびF値は以下のように定義する.

$\displaystyle 適合率 = \frac{正しい出力手がかり語数}{出力した手がかり語の総数}$      
$\displaystyle 再現率 = \frac{正しい出力手がかり語数}{正解データの手がかり語の総数}$      
$\displaystyle F値 = \frac{2 * (適合率 * 再現率)}{適合率 + 再現率}$      

手がかり語検出において,正解手がかり語の一部のみ検出できる場合がある. 例として,「東京タワー」という手がかり語を検出する場合を考える. 形態素解析器が「東京タワー」を途中で区切らずに名詞と判定し,かつ「東京タワー」が手がかり語辞書に登録されている場合に, 正しく「東京タワー」を手がかり語として検出できる. しかし,形態素解析器が「東京」と「タワー」のようにそれぞれを品詞として区切ってしまい,かつ「東京」は手がかり語辞書に登録されていた場合, 正解手がかり語の「東京タワー」の部分文字列である「東京」のみ検出できる. このように,正解手がかり語の文字列全体を正しく検出できた時のみを正解とする評価方法と, 正解手がかり語の文字列の一部分を検出できたら正解とする評価方法の2つが考えられる. 本研究の評価実験において,前者の評価方法を「部分マッチ」,後者の評価方法を「完全マッチ」と呼ぶ.

以下に,単語単位の評価における評価方法を示す.

[*]に,手がかり語検出を部分マッチにて評価した適合率,再現率およびF値を示す. 表[*]には,手がかり語検出の際の品詞情報による抽出対象の区分ごとの評価を示している. ここで,適合率の分子と再現率の分子の値が異なるのは,一つの正解手がかり語に対して複数回手がかり語検出を行ったときに, 複数回正解としているからである.


表: 手がかり語検出(部分マッチ)の評価
抽出対象 適合率 再現率 F値
名詞 0.312(1824/5851) 0.855(1280/1497) 0.457
名詞,(一般or固有名詞) 0.401(1511/3770) 0.810(1212/1497) 0.536
名詞,(一般or固有名詞)人名排除 0.399(1343/3367) 0.742(1111/1497) 0.519
名詞,固有名詞,(一般or地域) 0.777( 933/1200) 0.576( 863/1497) 0.662

[*]に,手がかり語検出を完全マッチにて評価した適合率,再現率およびF値を示す. 表[*]には,手がかり語検出の際の品詞情報による抽出対象の区分ごとの評価を示している.


表: 手がかり語検出(完全マッチ)の評価
抽出対象 適合率 再現率 F値
名詞 0.101(593/5851) 0.396(593/1497) 0.161
名詞,(一般or固有名詞) 0.157(593/3770) 0.396(593/1497) 0.225
名詞,(一般or固有名詞)人名排除 0.158(532/3367) 0.355(532/1497) 0.219
名詞,固有名詞,(一般or地域) 0.408(490/1200) 0.327(490/1497) 0.363

[*]に,形態素解析を行わずに前方最長一致で手がかり語検出を行い,正解手がかり語を文字単位に評価した場合の適合率,再現率およびF値を示す. 適合率と再現率およびF値は以下のように定義する.

$\displaystyle 適合率 = \frac{正しい出力文字数}{出力した手がかり語の総文字数}$      
$\displaystyle 再現率 = \frac{正しい出力文字数}{正解データの手がかり語の総文字数}$      
$\displaystyle F値 = \frac{2 * (適合率 * 再現率)}{適合率 + 再現率}$      


表: 文字単位の評価
適合率 再現率 F値
0.205(4844/23683) 0.829(4844/5845) 0.328

[*]に示すように,形態素解析を用いない場合,正解手がかり語の文字列のうち約83%の文字を手がかり語検出できていることが再現率より分かる. よって,作成した手がかり語辞書を用いたときに,その運用をうまく行えば,完全マッチで評価した場合でも再現率は最大約83%の性能が見込めることが示された.


next up previous contents
次へ: 都道府県名の曖昧性軽減の評価 上へ: 単語単位での地名解析 戻る: 正解データ   目次
平成23年3月3日