next up previous contents
Next: F値における記載不足の指摘の評価 Up: 実験結果 Previous: 表抽出における正解率   目次

単語抽出における正解率

先行手法と提案手法における「戦い」「城の造り」「交通」の抽出単語数を表 6.11に示す.


表 6.11: 抽出単語の総単語数
18#18


先行手法より提案手法の方が抽出できる単語数が増加した.また,抽出単語の正解率を表 6.12に示す.


表 6.12: 抽出単語の正解率
19#19


単語の不正解の例としては,提案手法(類似度)の城ページ番号28の「城の造り」が「資料(×)」となっている.これは重要項目「城の造り」として単語「資料」は内容としてふさわしくないので×としている.また,提案手法(分類語彙表)の城ページ番号11の「城の造り」が「山城(×)」となっている.これは城の造りで山を利用して建てられた城という意味で抽出されたのではなく,瀬戸山城の「山城」の部分が抽出されていたので(×)としている.

先行手法の単語抽出における正解箇所の割合は0.73となり,提案手法「Wikipedia全ページでクラスタリング」の単語抽出における正解箇所の割合は0.89となり,提案手法「類似度」の単語抽出における正解箇所の割合は0.82となり,提案手法「分類語彙表」の単語抽出における正解箇所の割合は0.82となった.このように,先行手法より提案手法の方が精度が高い結果になった.また,「Wikipedia全ページでクラスタリング」の方が「類似度」と「分類語彙表」より精度が高かった.

「類似度」と「分類語彙表」が低かった原因としては,重要項目と関係のない単語が表に検出されることに問題があると考える.表6.11より,単語の網羅性は上がっている. しかし,「類似度」の表生成では重要項目「文化財」の列に「バチカン」,「道府県」などが検出されている. また,「分類語彙表」の表生成でも重要項目「交通」の列に「通り」,「流し」など「交通」とは関係のない単語が検出されている.

結果として,単語取得の増加で網羅性は上がっているが,重要項目と関係のない単語が表に検出されることが精度が低くなったと考えられる.



akano hokuto 2018-03-06