はじめに

近年,インターネットの普及等により電子テキストが増加している.これら大量の電子テキストから有用な情報を効率的に取り出す技術が求められている. そこで言語テキスト処理技術を用いテーマキーワードとなる単語を入力することで,電子テキストや新聞データ等のメディアから入力単語の概念にかかわる概要情報を抜き出し概念ネットワークの研究が進められた. 本研究で改良を行う概念ネットワークは,単語の上位下位関係を木構造で表示するシソーラスとは異なるものである.

これまでのネットワークの研究で,松尾ら[5][6]はWeb上の情報からどのような人間関係があるかを示した人間関係ネットワークの構築を行った.概念ネットワークの構築に際して,大竹ら[1]は,TF-IDF法を用いて概念ネットワークの構築手法を提案した. また,土遠ら[2]は,概念ネットワークに出現した単語にテーマキーワードと無関係な単語があることに着目し,これら無関係な単語を出現させないために,「テーマ限定抽出法」を提案した.上東ら[3]は,検索エンジンを用いて概念ネットワークを構築することで,より多くのテーマキーワードで十分な情報量のネットワークを構築した.

しかし,これまでの研究では,関連する単語を概念ネットワークとして表示する際に,単にTF-IDF値が大きい単語を取り出してネットワークを構築しているため,よく似た内容の単語であっても離れて出現することがあった.

そこで本研究では,この概念ネットワークの構築において,Word2vec[4]を用いてある単語から発展するネットワークの単語を同種の単語が出やすくなるようにする.そのようにすることでネットワークをより見やすくするように改良する. 本研究の目的は,ネットワークの構築において出現する単語を同種の単語が出やすくなるようにし,より見やすいネットワークを構築することである.

本研究の主な主張点を以下に整理する.

本論文の構成は以下の通りである. 第2章では,本研究に関連する研究としてどのような研究が行われてきたかを記述し,その研究と本研究との関連を説明する. 第3章では,提案手法について説明を行う. 第4章では,本研究が行った実験についての説明と,その結果について記述する. 第5章では,第4章の結果について考察を行う. 第6章では,今後の課題について記述する. 第7章では,まとめを行う.