Next: 関連研究
Up: syuron2
Previous: 図目次
目次
長文から知りたい情報を取得するためには長い文を読む必要がある.よって,情報取得に時間がかかる.そこで,長文を表に示すことで長い文を読む必要がなく情報を容易に取得することができる.情報を抽出して表に整理する方法として藤原の研究 [1]やAkanoらの研究 [2]がある.藤原の研究では上位下位知識を利用して抽出データから下位語の頻度分析を行い,頻度が高かった下位語の上位語を重要項目と選定して,Wikipediaの抽出データから重要項目の下位語を取り出し,表にまとめていた.Akanoらの研究ではword2vec [3]内の単語クラスタリングを利用して,表生成に使用する抽出データの類似している単語をまとめて単語のクラスタを作り,頻度の高いクラスタを重要項目として人手で表にまとめていた.しかし,藤原の研究では抽出された重要項目の種類が少なく,Akanoらの研究では1つのクラスタを重要項目としていたので単語の網羅性が低いという問題点と,クラスタリングを行うデータは,Wikipediaから抽出した事柄を含むページのデータのみで単語クラスタリングを行っていたため,クラスタリングの精度が低くなる問題点があった.
そこで,本研究では先行手法の問題点を元に単語クラスタリングの改良と分類語彙表を用いて表生成を行うことで重要項目の選定と精度の向上を行う.
本研究の主張点を以下に示す.
- 情報抽出
- 本研究では「単語クラスタリング」による手法と「類似度」による手法と「分類語彙表」による手法の3つを提案する.(以降,「単語クラスタリング」による手法と「類似度」による手法と「分類語彙表」による手法を単に,「単語クラスタリング」と「類似度」と「分類語彙表」と表記する場合がある.)「単語クラスタリング」と「類似度」による手法はAkanoらの研究 [2]の改良を行う.Akanoら [2]の研究はWikipediaから抽出した事柄を含むページのデータのみで単語クラスタリングを行っていた.
本研究はWikipedia全ページを利用して単語クラスタリングを行う.クラスタリングに利用するデータが異なるという新規性が本研究にある.また,「類似度」による手法は,類似度を使用して重要項目に対応する単語群を抽出する点に新規性がある.
「分類語彙表」による手法は,分類語彙表よって分類・整理したシソーラス(類義語集)を利用して重要項目の選定を行う手法である.本研究は情報抽出における重要項目の選定するという観点で,分類語彙表を利用することに新規性がある.
- 情報抽出において,先行手法 [2]と提案手法「単語クラスタリング」と「類似度」と「分類語彙表」の4つの手法の評価実験を行う.情報抽出における評価実験としては,表抽出における正解率と単語抽出における正解率の精度を求めた.表抽出における正解率を評価した結果,先行手法の表抽出における正解箇所の割合は0.68であり,提案手法「Wikipedia全ページでクラスタリング」の表抽出における正解箇所の割合は0.71であり,提案手法「類似度」の表抽出における正解箇所の割合は0.88であり,提案手法「分類語彙表」の表抽出における正解箇所の割合は0.81であった.このように,先行手法より提案手法の方が精度が高い結果になった.また,単語抽出における正解率を評価した結果,先行手法の単語抽出における正解箇所の割合は0.73であり,提案手法「Wikipedia全ページでクラスタリング」の単語抽出における正解箇所の割合は0.89であり,提案手法「類似度」の単語抽出における正解箇所の割合は0.82であり,提案手法「分類語彙表」の単語抽出における正解箇所の割合は0.82であった.このように,先行手法より提案手法の方が精度が高い結果になった.よって,提案手法の有用性が確認できた.
- 表抽出における抽出単語数は,先行手法は94単語を表に抽出し,提案手法「単語クラスタリング」は200単語を表に抽出し,提案手法「類似度」は869単語を表に抽出し,提案手法「分類語彙表」476単語を表に抽出した.先行手法より提案手法3つの方が抽出単語数が多く単語の網羅性が向上した.
- 記載不足の指摘
- 情報抽出において,入力した文章に記載されてない項目は空欄で表に抽出する.記載されていない項目を空欄として示すことで書き手に追加記載を促すことを目的とする.
表の空欄箇所の検出性能をF値を用いて評価した.先行手法と提案手法「単語クラスタリング」と「類似度」と「分類語彙表」の4つの手法で評価実験を行った.先行手法のF値は0.77であり,提案手法「Wikipedia全ページでクラスタリング」のF値は0.75であり,提案手法「類似度」のF値は0.84であり,提案手法「分類語彙表」のF値は0.81であった.このように提案手法「類似度」と提案手法「分類語彙表」の方が先行手法より精度が高い結果になり,「類似度」と「分類語彙表」の手法においては空欄指摘の有用性が確認できた.
本論文の構成は以下の通りである.第2章で関連研究の紹介をする.第3章でword2vecと分類語彙表の説明を行う.
第4章では情報
抽出の手法と記載不足の指摘の手法を提案する.第5章では実験環境の説明を行う.第6章では実験条件や評価方法や実験結果と性能評価を行う.第7章では本稿をまとめる.
akano hokuto
2018-03-06