はじめに

近年,インターネット上で様々な電子テキストが増加し,これらの電子テキストから有益な情報を取り出す技術が望まれている. 大竹ら[#!ootake!#]は,電子テキストから特定のキーワードに基づく関係情報をネットワークとして抽出する方法を提案し,「地震」というキーワードに基づいて単語ネットワークの構築を行った. Doenら[#!doen!#]は,大竹らが構築したネットワークに関連のない事物のノードを含むことを確認し,それらのノードを削除を行った. 窪[#!kubo!#]は,大竹らとDoenらが構築したネットワークは,ノード同士の関係を示す情報がなく,関係性が分かりづらいという問題を確認し,ネットワークのリンクにノード同士の関係性を示す文字列の付与を行った. しかし,窪が付与した文字列は,ノードの単語の間の文字列の内,出現頻度が高いものを付与しており,関係性をわかりやすくするには余分なものや不十分なものが付与されることがあるという問題があった.

そこで本研究では,リンクに付与する文字列を選定する際,出現頻度の代わりにBERTやword2vecを用い,文字列の重心を利用する.そのようにすることで過不足ない要約を付与するように改良する.本研究の目的は,リンクに付与する文字列を選定する際,過不足ない要約を付与するようにし,単語ネットワークの利便性を向上させることである.

本研究の主張点を以下に示す.

本論文の構成は以下の通りである. 第2章では,本研究の関連研究を述べ, 第3章では,ネットワーク構築とリンクへの文字列付与の流れについて述べる. 第4章では,提案手法について説明する. 第5章では,実験条件と実験結果や評価方法と評価結果を述べる. 第6章では,結果の考察と今後の課題を述べる. 第7章では,本論文のまとめを述べる.