next up previous contents
Next: 謝辞 Up: soturon Previous: 句点と句読点の考察   目次

おわりに

先行研究では,大竹ら[#!ootake!#]は,電子テキストから特定のキーワードに基づく関係情報をネットワークとして抽出する方法を提案し,「地震」というキーワードに基づいて単語ネットワークの構築を行った. Doenら[#!doen!#]は,大竹らが構築したネットワークに関連のない事物のノードを含むことを確認し,それらのノードを削除を行った. しかし大竹らとDoenらが構築したネットワークは,ノード同士の関係を示す情報がなく,関係性が分かりづらいという問題があった.

そこで本研究では,新聞記事群データからノード同士の関係を表す文字列を抽出し,抽出した文字列を単語ネットワークのリンクに付与する手法を提案した.

その結果,リンクに文字列を付与することで,関係が分かりづらい単語同士の関係性を確認した. また,提案手法で得られた出力結果に対して,MRRを用いた評価,1位正解率を用いた評価,5位正解率を用いた評価を行った. 付与する文字列に,余分な部分や,関係性をさらに分かりやすくするには不十分な部分があっても正解とする基準で評価した場合,MRRを用いた評価では約7割,1位正解率を用いた評価では約6割,5位正解率を用いた評価では約9割の性能を得た.

文字列を抽出する際に,句読点を区切りとする手法と,句点を区切りとする手法の2つの手法での実験も行った. 2つの手法での実験結果を評価し,性能を比較した.

その結果,2単語間の関係を示すものとして適切な場合を正解とする基準での評価は,句読点を区切りとする手法の方が良い性能となった. しかし,2単語間の関係を示すものとして適切ではあるが,余分な部分があっても正解とする基準で評価した場合,句点を区切りとする手法の方が良い性能となった. また,2単語間の関係を示すものとして適切ではあるが,余分な部分や,関係性をさらに分かりやすくするには不十分な部分があっても正解とする基準で評価した場合,両手法ともほぼ同等の性能という結果となった. 今後は,評価した単語対数が少ないので,別の単語ネットワークの単語対も評価していきたいと考えている.


2016-03-17