next up previous contents
Next: 関連研究 Up: my_ronbun Previous: 表目次   目次

はじめに

関連した事柄を調査する際,重要な項目ごとに情報を表に整理することで,その情報を使う人にとって,可読性や利便性が向上すると考えられる.

赤野らの研究[1]では,word2vecを用いて,複数の文書に出現する単語をベクトルで表現し,これをクラスタリングした後,表の形で整理していた. word2vecでは,周辺の単語を考慮してを単語ベクトルを求めるので,周辺に出現する単語の違いによって単語を分類できる. しかし,先行研究では単語のみを表に整理するため,正しく情報を分類できていたとしても,それらの情報がどのような基準で分類されているかが分からず,情報を正確に理解できない場合があった.

本研究では,以上のような問題を解決するために複数の文書から重要な情報を文単位で抽出し表に整理する手法を提案する. 提案手法では,文書に含まれる文を意味を崩さない範囲で短い文に分割し,これを単語ベクトルを基にしたベクトルで表現する. そして,得られたベクトルをx-means法でクラスタリングし,文書ごとに表に整理して表示する.

この提案手法の情報抽出の精度を適合率,再現率,F値から評価した. また,先行研究によって得られた情報と提案手法によって得られた情報のどちらがより理解しやすい情報であるかを比較した.

提案手法の情報抽出の精度の評価結果は,表から無作為に抽出した5列の適合率の平均が0.91,再現率の平均が0.64,F値が0.73となった. また,先行手法によって得られた情報と提案手法によって得られた情報のどちらがより理解しやすいかを比較した結果,先行研究に比べ提案手法の方がより情報を正確に理解できるという結果となった.

しかし,提案手法の中で行う文の分割の際に行う格解析での解析の誤りによって不自然な文が生成されることがある.重要度の高い上位5列に含まれる147文のうち8文がこのような不自然な文であった.このような不自然な文は理解しづらいため,文の分割方法を見直し,不自然な文が生成されないようにする必要があると考えられる.

本研究の主張点を以下に示す.

新規性

赤野らの研究[1]などの従来手法では情報を「1月20日」のように単語単位で抽出していたが,本研究では情報を「1月20日に発売する」のように文単位で抽出する.

有用性

文単位の情報を抽出し表に整理することで,単語単位の情報抽出では理解できなかった情報を改善できるという有用性がある.

性能

提案手法の情報抽出の精度の評価結果は,表から無作為に抽出した5列の適合率の平均が0.91,再現率の平均が0.64,F値が0.73となった.



2018-03-02