Next: 情報抽出の比較
Up: 実験結果
Previous: 表の全ての箇所に対して検索エンジンを用いた情報抽出
目次
表の記載欠落箇所のみに対して検索エンジンを用いた情報抽出
Wikipediaからの情報抽出によって得られた表の記載欠落箇所に対して,検索エンジンによって得られた文書から作成した表を用いて,記載欠落箇所に対応する箇所のみでの検索エンジンの情報抽出の正解率を集計した.その結果を表と表と表に示す.
表と表と表において,重要項目ごとではなく全ての重要項目に対しての正解率を求めている.
「Wikipedia内に正解がないもの」とはWikipediaからの節の手法に基づく情報抽出が100%の正解率で行えており,正しく記載欠落箇所を過不足なく検出できた場合を想定した実験であり,すべての正しい記載欠落箇所での実験である.
「表の記載欠落箇所かつWikipedia内に正解がないもの」とは節の手法に基づく情報抽出の失敗を考慮した場合の実験であり,節の手法で正しく特定できた記載欠落箇所だけでの実験である.
また,表と表とは,評価実験の条件として節で述べた条件で行った評価実験の結果である.
システムによって正解候補が記事頻度上位1位から5位までの単語にないと判定された場合は,評価実験のときは,記事頻度上位6位から20位までにも正解候補がないかを取得したWeb文書から人手で確認する.
さらに6位から20位までの単語にも正解候補となるものがWeb文書内になかった場合は,Webを利用して本当に正解候補が存在しないものなのかを確かめる.
Web上にも正解候補となるものが本当に存在しないのであれば,その箇所は正解がないままでよいものとして,省いて評価実験を行った.
節の情報抽出について,先行研究である藤原[1],赤野[2]の論文を参照して記載欠落箇所の検出を行った.
固有表現抽出に基づく手法で作成した表では,本研究で用いた30件の城データにおいて20個の正しい記載欠落箇所のうち10個の記載欠落箇所が正しく検出され,同様に上位下位知識に基づく手法で作成した表では,本研究で用いた30件の城データにおいて37個の正しい記載欠落箇所のうち33個の記載欠落箇所が正しく検出され,クラスタリングに基づく手法で作成した表では,本研究で用いた30件の城データにおいて67個の正しい記載欠落箇所のうち53個の記載欠落箇所が正しく検出された.
「Wikipedia内に正解がないもの」の実験では,5位正解率の値は,固有表現抽出に基づく手法が0.45,上位下位知識に基づく手法が0.45を検出できた.クラスタリングに基づく手法が0.44であった.
また,評価条件として節で述べた条件で行った評価実験では,5位正解率の値は,固有表現抽出に基づく手法が0.50,上位下位知識に基づく手法が0.56を検出できた.クラスタリングに基づく手法が0.63であった.
表:
固有表現抽出の表の記載欠落箇所のみでの正解率
評価方法 |
表の記載欠落箇所かつWikipedia内に正解がないもの |
Wikipedia内に正解がないもの |
1位正解率 |
0.10( 1/10) |
0.15( 3/20) |
5位正解率 |
0.40( 4/10) |
0.45( 9/20) |
MRR |
0.20 |
0.25 |
表:
上位下位知識の表の記載欠落箇所のみでの正解率
評価方法 |
表の記載欠落箇所かつWikipedia内に正解がないもの |
Wikipedia内に正解がないもの |
1位正解率 |
0.21( 7/33) |
0.18( 7/37) |
5位正解率 |
0.45(15/33) |
0.45(17/37) |
MRR |
0.30 |
0.28 |
表:
クラスタリングの表の記載欠落箇所のみでの正解率
評価方法 |
表の記載欠落箇所かつWikipedia内に正解がないもの |
Wikipedia内に正解がないもの |
1位正解率 |
0.28(18/53) |
0.38(26/67) |
5位正解率 |
0.50(27/53) |
0.44(30/67) |
MRR |
0.40 |
0.40 |
表:
固有表現抽出の表の記載欠落箇所のみでの正解率(Webにも正解がないものを除いた評価)
評価方法 |
表の記載欠落箇所かつWikipedia内に正解がないもの |
Wikipedia内に正解がないもの |
1位正解率 |
0.12( 1/ 8) |
0.16( 3/18) |
5位正解率 |
0.50( 4/ 8) |
0.50( 9/18) |
MRR |
0.25 |
0.28 |
表:
上位下位知識の表の記載欠落箇所のみでの正解率(Webにも正解がないものを除いた評価)
評価方法 |
表の記載欠落箇所かつWikipedia内に正解がないもの |
Wikipedia内に正解がないもの |
1位正解率 |
0.25( 7/27) |
0.23( 7/30) |
5位正解率 |
0.55(15/27) |
0.56(17/30) |
MRR |
0.37 |
0.34 |
表:
クラスタリングの表の記載欠落箇所のみでの正解率(Webにも正解がないものを除いた評価)
評価方法 |
表の記載欠落箇所かつWikipedia内に正解がないもの |
Wikipedia内に正解がないもの |
1位正解率 |
0.52(18/34) |
0.55(26/47) |
5位正解率 |
0.79(27/34) |
0.63(30/47) |
MRR |
0.63 |
0.57 |
Next: 情報抽出の比較
Up: 実験結果
Previous: 表の全ての箇所に対して検索エンジンを用いた情報抽出
目次
root
2017-03-04