Wikipedia の城ページにおいて実際に情報が欠落していた項目を,情報抽出の実験 で適切に空欄として検出できると,記載不足の指摘が適切に行えたと考える. 空欄箇所に基づく情報の欠落項目の検出性能を再現率,適合率,F 値で評価した.そ の結果を表 6.13に示す.
適合率は表抽出において空欄となった場所が正しく空欄とした場合正解とする. また,城ページにおいて重要項目の単語の表記されている表の箇所に間違えて空欄を検出した不正解とする.例としては,先行手法の城ページ番号1の重要項目「交通」で×となっている.しかし,城ページ番号1のページでは交通に関連する地名の「京都」が表記されていた.このように重要項目に関する単語が城ページに表記されているが,空欄と検出した場合は不正解とする.
F値を評価した結果,先行手法のF値は0.77となり,提案手法「Wikipedia全ページでクラスタリング」のF値は0.75となり,提案手法「類似度」のF値は0.84となり,提案手法「分類語彙表」のF値は0.81となった.このように,提案手法「類似度」,「分類語彙表」の方が先行手法と提案手法「Wikipedia全ページでクラスタリング」より精度が高い結果になった.提案手法「Wikipedia全ページでクラスタリング」が低かった原因としては,重要項目「交通」の単語をあまり抽出できなかったことで適合率が低くなってしまったことが挙げられる.1つのクラスタを重要項目としているため,移動手段の方法や地名といった単語は別のクラスタに属する単語を抽出することが出来ず,単語の網羅性が低かったことが原因だと考えられる.