おわりに

先行研究では,大竹ら[#!ootake!#]は,電子テキストから特定のキーワードに基づく関係情報をネットワークとして抽出する方法を提案し, 「地震」というキーワードに基づいて単語ネットワークの構築を行った. Doenら[#!doen!#]は,大竹らが構築したネットワークに関連のない事物のノードを含むことを確認し,それらのノードを削除を行った. 窪[#!kubo!#]は,大竹らとDoenらが構築したネットワークは,ノード同士の関係を示す情報がなく,関係性が分かりづらいという問題を確認し,単語ネットワークのリンクにノード間の関係性を示す文字列を付与した. しかし,関係性を示す文字列として,ノードの単語の間の文字列の内,出現頻度が高いものを付与しており,関係性をわかりやすくするには余分なものや不十分なものが付与されることがあった. そこで本研究では,リンクに付与する文字列を選定する際,出現頻度の代わりにBERTやword2vecを用い,文字列の重心を利用する手法を提案した. また,提案手法で得られた出力結果に対して,MRRを用いた評価,1位正解率を用いた評価,5位正解率を用いた評価を行い,その評価結果を従来手法の評価結果と比較した.5位正解率を用いた評価において,2単語の関係を示すものとして適切であるが余分な部分がある場合も正解とする基準で,従来手法が68%に対し,提案手法では67%の性能を得た.また,1位正解率を用いた評価方法において,2単語の関係を示すものとして適切な場合を正解とする基準で,従来手法では17%に対し,提案手法では27%の性能を得た.2単語の関係を示すものとして適切であるが余分な部分がある場合も正解とする基準では,従来手法が32%に対し,提案手法では40%の性能を得た.提案手法は5位正解率を用いた評価においては従来手法と同等の性能であったが,1位正解率を用いた評価においては性能の向上を確認できた.

今後は,さらなる性能向上のため,BERTのFine-tuningを行うなど,提案手法の改良を検討したい.