Next: 目次 Up: syuron2 Previous: syuron2 目次

概要

長文から知りたい情報を取得するためには長い文を読む必要がある．よって，情報取得に時間がかかる．そこで，長文を表に示すことで長い文を読む必要がなくなり，情報を容易に取得することができる．情報を抽出して表に整理する方法として，藤原の研究 [1]やAkanoの研究 [2]がある．藤原の研究では上位下位知識を利用して抽出データから下位語の頻度分析を行い，頻度が高かった下位語の上位語を重要項目と選定して，Wikipediaの抽出データから重要項目の下位語を取り出し，表にまとめていた．しかし，藤原の研究では抽出された重要項目の種類が少ないという問題点がある．Akanoの研究ではword2vec [3]内の単語クラスタリングを利用して，表生成に使用する抽出データの類似している単語をまとめて単語のクラスタを作り，頻度の高いクラスタを重要項目として人手で表にまとめていた．しかし，Akanoらの研究では1つのクラスタを重要項目としていたため，単語の網羅性が低いという問題点と，クラスタリングを行うデータは，Wikipediaから抽出した事柄を含むページのデータのみで単語クラスタリングを行っていたため，クラスタリングの精度が低くなる問題点の2つあった．

そこで，本研究では単語クラスタリングの改良や分類語彙表を用いて表生成を行い，重要項目の選定を行った．重要項目の選定方法としては，「単語クラスタリング」による手法と「類似度」による手法と「分類語彙表」による手法の3つを提案する．「単語クラスタリング」はAkanoの研究と同様に抽出データの単語から類似している単語をまとめて単語のクラスタを作り重要項目の選定を行う手法である．ただし，Akanoらの研究ではWikipediaから抽出した事柄を含むページのデータのみで単語クラスタリングしていたが，本研究ではWikipedia全ページを利用して単語のクラスタリングを行う．「類似度」は入力した単語のベクトルと近いベクトルの単語(類似した単語)を取得できる．入力した単語と入力データと類似した単語を使用して重要項目の選定を行う手法である．「分類語彙表」は分類語彙表よって分類・整理したシソーラス(類義語集)を利用して重要項目の選定を行う手法である． Akanoらの研究と提案手法3つで評価実験を行う．評価実験としては情報抽出と記載不足の指摘の2点で評価を行う．

情報抽出の評価実験は，表抽出における正解率と単語抽出における正解率の2つで評価を行った．表抽出における正解率は表に1つでも正しく情報を抽出したものを正解とした．また，空欄を正しく空欄として検出できれば正解とした．表抽出における正解率を評価した結果，先行手法の表抽出における正解箇所の割合は0.68であり，提案手法「Wikipedia全ページでクラスタリング」の表抽出における正解箇所の割合は0.71であり，提案手法「類似度」の表抽出における正解箇所の割合は0.88であり，提案手法「分類語彙表」の表抽出における正解箇所の割合は0.81であった．このように，先行手法より提案手法の方が精度が高い結果になった．また，「Wikipedia 全ページでクラスタリング」と「分類語彙表」よりも「類似度」の結果の方が精度が高い結果になった．

また，単語抽出における正解率を評価した結果，先行手法の単語抽出における正解箇所の割合は0.73であり，提案手法「Wikipedia全ページでクラスタリング」の単語抽出における正解箇所の割合は0.89であり，提案手法「類似度」の単語抽出における正解箇所の割合は0.82であり，提案手法「分類語彙表」の単語抽出における正解箇所の割合は0.82であった．このように，先行手法より提案手法の方が精度が高い結果になった．また，「Wikipedia 全ページでクラスタリング」の方が「類似度」と「分類語彙表」より精度が高かった．

記載不足の指摘の評価実験は，F値を用いて正しく空欄として検出できたかを評価した．F値を評価した結果，先行手法のF値は0.77であり，提案手法「Wikipedia全ページでクラスタリング」のF値は0.75であり，提案手法「類似度」のF値は0.84であり，提案手法「分類語彙表」のF値は0.81であった．このように，提案手法「類似度」，「分類語彙表」の方が先行手法と提案手法「Wikipedia全ページでクラスタリング」より精度が高い結果になった．

情報抽出と記載不足の指摘の2点で評価を行った結果，以下のことがわかった．単語クラスタリングに利用するデータを増やすことによって，類似した単語が違うクラスタに分割されにくくなり，１つのクラスタに属する単語数は増加した．よって，単語クラスタリングに利用するデータは増やしたほうが精度が上がると考える．単語抽出における正解率から，抽出単語の総数が多いほど，表抽出における正解率の精度は高くなる傾向にある．重要項目に属する単語数を増やすことによって精度の向上が見込める．しかし，単語抽出における正解率から，重要項目に属する単語数が多くなると，重要項目と関係にない単語が表に検出され，単語抽出における正解率は下がるという問題点があることがわかった．また， F値における記載不足の指摘の評価実験を行った結果，F値の結果は抽出単語数が多いと高くなる傾向にあることがわかった．

akano hokuto 2018-03-06