概要

近年,電子テキストが増加しており,大量の電子テキストの中から有用な情報を取り出す技術が求められている.

大竹ら[1]は,TF-IDF法を用いて概念ネットワークの構築手法を提案した. 土遠ら[2]は,概念ネットワークに出現した単語にテーマキーワードと無関係な単語があることに着目し,これら無関係な単語を出現させないために,「テーマ限定抽出法」を提案した. 上東ら[3]は,検索エンジンを用いて概念ネットワークを構築することで,より多くのテーマキーワードで十分な情報量のネットワークを構築した.

しかし,これらは,単にTF-IDF値が大きい単語を取り出してネットワークを構築しているため,よく似た内容の単語であっても離れて出現することがあった.

そこで本研究では,この概念ネットワークの構築において,Word2vec[4]を用いてある単語から出現する単語を同種の単語が出やすくなるようにする.そのようにすることでネットワークをより見やすくするように改良する. 本研究の目的は,ネットワークの構築において出現する単語を同種の単語が出やすくなるようにし,より見やすいネットワークを構築することである.

実際にネットワークの構築において出現する単語を同種の単語が出やすくなるようにしたところ,1ネットワークあたりの役に立つ単語の個数は,従来手法が3.2個に対して,TF-IDF合計値法が3.3個,TF-IDF最大値法が3.1個と,従来手法と比べても情報量が減少することを抑えた. また,1ネットワークあたりの見やすい部分の個数は,従来手法が1.2個に対して,TF-IDF合計値法が3.1個,TF-IDF最大値法が2.6個と,似た意味の単語が並んで見やすくなっている部分は増えた.