近年,インターネット上で様々な電子テキストが増加し,これらの電子テキストから有益な情報を取り出す技術が望まれている.
大竹ら[#!ootake!#]は,電子テキストから特定のキーワードに基づく関係情報をネットワークとして抽出する方法を提案し,「地震」というキーワードに基づいて単語ネットワークの構築を行った.
Doenら[#!doen!#]は,大竹らが構築したネットワークに関連のない事物のノードを含むことを確認し,それらのノードを削除を行った.
窪[#!kubo!#]は,大竹らとDoenらが構築したネットワークは,ノード同士の関係を示す情報がなく,関係性が分かりづらいという問題を確認し,ネットワークのリンクにノード同士の関係性を示す文字列の付与を行った.
しかし,窪が付与した文字列は,ノードの単語の間の文字列の内,出現頻度が高いものを付与しており,関係性をわかりやすくするには余分なものや不十分なものが付与されることがあるという問題があった.
そこで本研究では,リンクに付与する文字列を選定する際,出現頻度の代わりにBERTやword2vecを用い,文字列の重心を利用する.そのようにすることで過不足ない要約を付与するように改良する.本研究の目的は,リンクに付与する文字列を選定する際,過不足ない要約を付与するようにし,単語ネットワークの利便性を向上させることである.
本研究の主張点を以下に示す.
- 単語ネットワークのノード同士の関係を示す文字列の付与において,文字列の選定に出現頻度ではなく重心を利用することで,過不足ない要約を付与するように改良する.
- 5位正解率を用いた評価において,2単語の関係を示すものとして適切であるが余分な部分がある場合も正解とする基準で,従来手法が68%に対し,提案手法では67%の性能を得た.また,1位正解率を用いた評価方法において,2単語の関係を示すものとして適切な場合を正解とする基準で,従来手法では17%に対し,提案手法では27%の性能を得た.2単語の関係を示すものとして適切であるが余分な部分がある場合も正解とする基準では,従来手法が32%に対し,提案手法では40%の性能を得た.提案手法は5位正解率を用いた評価においては従来手法と同等の性能であったが,1位正解率を用いた評価においては性能の向上を確認できた.
本論文の構成は以下の通りである.
第2章では,本研究の関連研究を述べ,
第3章では,ネットワーク構築とリンクへの文字列付与の流れについて述べる.
第4章では,提案手法について説明する.
第5章では,実験条件と実験結果や評価方法と評価結果を述べる.
第6章では,結果の考察と今後の課題を述べる.
第7章では,本論文のまとめを述べる.