概要

近年,電子テキストは増加し,大量の電子テキストから有用な情報を効率的に取り出す技術が求められている. 大竹ら[#!ootake!#]は,言語テキスト処理技術を用いキーワードとなる単語を入力することで,電子テキストや新聞データ等のメディアから入力単語の概念にかかわる概要情報を抜き出し単語ネットワークを構築した.さらに窪[#!kubo!#]の研究では,単語ネットワークのリンクにノード間の関係性を示す文字列を付与した.なお,この文字列は区切り方によって文や単語列になる.

しかし,関係性を示す文字列として,ノードの単語の間の文字列の内,出現頻度が高いものを付与しており,関係性をわかりやすくするには余分なものや不十分なものが付与されることがあった.

そこで本研究では,リンクに付与する文字列を選定する際,出現頻度の代わりにBERTやword2vecを用い,文字列の重心を利用する.そのようにすることで過不足ない要約を付与するように改良する.本研究の目的は,リンクに付与する文字列を選定する際,過不足ない要約を付与するようにし,単語ネットワークの利便性を向上させることである.

実際に「トヨタ」「宇宙」「ギリシャ」に関するネットワークを構築し,そのネットワークのノード間に付与する文字列を,重心を用いて選定した.選定した文字列をMRRと1位正解率と5位正解率を用いて,要約として適切なものであるかの評価を行った.

また,提案手法で得られた出力結果に対して,MRRを用いた評価,1位正解率を用いた評価,5位正解率を用いた評価を行い,その評価結果を従来手法の評価結果と比較した.5位正解率を用いた評価において,2単語の関係を示すものとして適切であるが余分な部分がある場合も正解とする基準で,従来手法が68%に対し,提案手法では67%の性能を得た.また,1位正解率を用いた評価方法において,2単語の関係を示すものとして適切な場合を正解とする基準で,従来手法では17%に対し,提案手法では27%の性能を得た.2単語の関係を示すものとして適切であるが余分な部分がある場合も正解とする基準では,従来手法が32%に対し,提案手法では40%の性能を得た.提案手法は5位正解率を用いた評価においては従来手法と同等の性能であったが,1位正解率を用いた評価においては性能の向上を確認できた.