そこで,本研究では単語クラスタリングの改良や分類語彙表を用いて表生成を行い,重要項目の選定を行った.重要項目の選定方法としては,「単語クラスタリング」による手法と「類似度」による手法と「分類語彙表」による手法の3つを提案する.「単語クラスタリング」はAkanoの研究と同様に抽出データの単語から類似している単語をまとめて単語のクラスタを作り重要項目の選定を行う手法である.ただし,Akanoらの研究ではWikipediaから抽出した事柄を含むページのデータのみで単語クラスタリングしていたが,本研究ではWikipedia全ページを利用して単語のクラスタリングを行う.「類似度」は入力した単語のベクトルと近いベクトルの単語(類似した単語)を取得できる.入力した単語と入力データと類似した単語を使用して重要項目の選定を行う手法である.「分類語彙表」は分類語彙表よって分類・整理したシソーラス(類義語集)を利用して重要項目の選定を行う手法である. Akanoらの研究と提案手法3つで評価実験を行う.評価実験としては情報抽出と記載不足の指摘の2点で評価を行う.
情報抽出の評価実験は,表抽出における正解率と単語抽出における正解率の2つで評価を行った. 表抽出における正解率は表に1つでも正しく情報を抽出したものを正解とした.また,空欄を正しく空欄として検出できれば正解とした.表抽出における正解率を評価した結果,先行手法の表抽出における正解箇所の割合は0.68であり,提案手法「Wikipedia全ページでクラスタリング」の表抽出における正解箇所の割合は0.71であり,提案手法「類似度」の表抽出における正解箇所の割合は0.88であり,提案手法「分類語彙表」の表抽出における正解箇所の割合は0.81であった.このように,先行手法より提案手法の方が精度が高い結果になった.また,「Wikipedia 全ページでクラスタリング」と 「分類語彙表」よりも「類似度」の結果の方が精度が高い結果になった.
また,単語抽出における正解率を評価した結果,先行手法の単語抽出における正解箇所の割合は0.73であり,提案手法「Wikipedia全ページでクラスタリング」の単語抽出における正解箇所の割合は0.89であり,提案手法「類似度」の単語抽出における正解箇所の割合は0.82であり,提案手法「分類語彙表」の単語抽出における正解箇所の割合は0.82であった.このように,先行手法より提案手法の方が精度が高い結果になった.また,「Wikipedia 全ページでクラスタリング」の方が「類似度」と「分類語彙表」より精度が高かった.
記載不足の指摘の評価実験は,F値を用いて正しく空欄として検出できたかを評価した.F値を評価した結果,先行手法のF値は0.77であり,提案手法「Wikipedia全ページでクラスタリング」のF値は0.75であり,提案手法「類似度」のF値は0.84であり,提案手法「分類語彙表」のF値は0.81であった.このように,提案手法「類似度」,「分類語彙表」の方が先行手法と提案手法「Wikipedia全ページでクラスタリング」より精度が高い結果になった.
情報抽出と記載不足の指摘の2点で評価を行った結果,以下のことがわかった.単語クラスタリングに利用するデータを増やすことによって,類似した単語が違うクラスタに分割されにくくなり,1つのクラスタに属する単語数は増加した.よって,単語クラスタリングに利用するデータは増やしたほうが精度が上がると考える. 単語抽出における正解率から,抽出単語の総数が多いほど,表抽出における正解率の精度は高くなる傾向にある.重要項目に属する単語数を増やすことによって精度の向上が見込める.しかし,単語抽出における正解率から,重要項目に属する単語数が多くなると,重要項目と関係にない単語が表に検出され,単語抽出における正解率は下がるという問題点があることがわかった.また, F値における記載不足の指摘の評価実験を行った結果,F値の結果は抽出単語数が多いと高くなる傾向にあることがわかった.