next up previous contents
Next: 関連研究 Up: syuron2 Previous: 図目次   目次

はじめに

長文から知りたい情報を取得するためには長い文を読む必要がある.よって,情報取得に時間がかかる.そこで,長文を表に示すことで長い文を読む必要がなく情報を容易に取得することができる.情報を抽出して表に整理する方法として藤原の研究 [1]やAkanoらの研究 [2]がある.藤原の研究では上位下位知識を利用して抽出データから下位語の頻度分析を行い,頻度が高かった下位語の上位語を重要項目と選定して,Wikipediaの抽出データから重要項目の下位語を取り出し,表にまとめていた.Akanoらの研究ではword2vec [3]内の単語クラスタリングを利用して,表生成に使用する抽出データの類似している単語をまとめて単語のクラスタを作り,頻度の高いクラスタを重要項目として人手で表にまとめていた.しかし,藤原の研究では抽出された重要項目の種類が少なく,Akanoらの研究では1つのクラスタを重要項目としていたので単語の網羅性が低いという問題点と,クラスタリングを行うデータは,Wikipediaから抽出した事柄を含むページのデータのみで単語クラスタリングを行っていたため,クラスタリングの精度が低くなる問題点があった.

そこで,本研究では先行手法の問題点を元に単語クラスタリングの改良と分類語彙表を用いて表生成を行うことで重要項目の選定と精度の向上を行う.

本研究の主張点を以下に示す.

本論文の構成は以下の通りである.第2章で関連研究の紹介をする.第3章でword2vecと分類語彙表の説明を行う. 第4章では情報 抽出の手法と記載不足の指摘の手法を提案する.第5章では実験環境の説明を行う.第6章では実験条件や評価方法や実験結果と性能評価を行う.第7章では本稿をまとめる.



akano hokuto 2018-03-06