next up previous contents
Next: 目次 Up: soturon Previous: soturon   目次

概要

近年,インターネット上で様々な電子テキストが増加し,これらの電子テキストから有益な情報を取り出す技術が望まれている.

大竹ら[#!ootake!#]は,TF-IDFを用いて,新聞記事群から事物の関係情報を単語ネットワークとしてまとめたものを構築した. Doenら[#!doen!#]は,単語ネットワークを構築する際に,事物と無関係であるノードの削除を行った. しかし,大竹らとDoenらが構築したネットワークは,ノード同士の関係を示す情報がなく,関係性が分かりづらいという問題がある.

そこで本研究では,単語ネットワークを構築した後,ネットワークのリンクにノード同士の関係性を示す文字列の付与を行う. リンクに関係性を示す文字列を付与することで,構築した単語ネットワークから得られる情報がより詳細なものとなる. 本研究の目的は,ノード同士の関係性を分かりやすくすることにより,単語ネットワークの利便性の向上を図ることである.

実際に「トヨタ」「宇宙」「ギリシャ」に関するネットワークを構築し,そのネットワークのノード間に文字列を付与することで,ノード同士の関係性への理解が深まるかを調査した. 調査の結果,文字列を付与することで,関係が分かりづらいノード同士の関係性を確認した. また,MRRと1位正解率と5位正解率を用いて,リンクに付与する文字列が適切なものであるかの評価を行った. 付与する文字列に,余分な部分や,関係性をさらに分かりやすくするには不十分な部分があっても正解とする基準とした場合,MRRを用いた評価では約7割,一位正解率を用いた評価では約6割,5位正解率を用いた評価では約9割の性能を得ることができた.



2016-03-17