表抽出における正解率

Next: 単語抽出における正解率 Up: 実験結果 Previous: 表生成目次

表抽出における正解率

表に1つでも正しく情報を抽出したものを正解とし，また空欄を正しく空欄と検出できれば正解とする．先行手法と提案手法の単語クラスタリングと分類語彙表の表抽出における正解率を表 6.10に示す．

**表 6.10:** 表抽出における正解率
17#17

表抽出における正解率を評価した結果，先行手法の表抽出における正解箇所の割合は0.68となり，提案手法「Wikipedia全ページでクラスタリング」の表抽出における正解箇所の割合は0.71となり，提案手法「類似度」の表抽出における正解箇所の割合は0.88となり，提案手法「分類語彙表」の表抽出における正解箇所の割合は0.81となった．このように，先行手法より提案手法の方が精度が高い結果になった．また，「Wikipedia全ページでクラスタリング」と「分類語彙表」よりも「類似度」の結果の方が精度が高い結果になった．

「Wikipedia全ページでクラスタリング」と「分類語彙表」が低かった原因としては，「Wikipedia全ページでクラスタリング」では1つのクラスタを重要項目としていたことが挙げられる．「Wikipedia全ページでクラスタリング」の重要項目１つあたりの単語数は約190単語を網羅し，「類似度」の重要項目１つあたりの単語数は4000単語を網羅し，「分類語彙表」の重要項目１つあたりの単語数は約516単語を網羅していた．「Wikipedia全ページでクラスタリング」は他の提案手法2つよりも大幅に少ない．よって，他の提案手法2つよりも単語の網羅生が低く重要情報の抽出ができなかったことが原因と考える．

また，「分類語彙表」は「源義家」，「吉田」といった固有名詞や「岐阜」，「五日市」といった地名は分類語彙表に登録されてない単語で未定義に分類される．未定義に属する単語は単語同士の関連性が低く重要項目の候補から外していた．未定義を重要項目から外していたため「分類語彙表」の「交通」の列に地名を抜き出すことができなかったことが原因だと考える．

akano hokuto 2018-03-06