next up previous contents
Next: 目次 Up: soturon2 Previous: soturon2   目次

概要

近年,インターネット上で様々な電子テキストが増加し,これらの電子テキストから有益な情報を取り出す技術が望まれている.

大竹ら[1]は,TF-IDFを用いて,新聞記事群から事物の関係情報を単語ネットワークとしてまとめたものを構築した. 土遠ら[2]は,単語ネットワークを構築する際に,事物と無関係であるノードの削除を行った. 窪ら[3]は,ノード同士の関係を示す情報としてリンクに文字列の付与を行った.

しかし,これらは複数文書を入力と場合における,発想支援を目的とした研究であり,一連の内容として書かれている単一文書に対しては適用できないということがあった.

そこで本研究では,単一文書を入力とした場合の単語ネットワークの構築を行う. 単一文書を単語ネットワークとして可視化することで,文書を読む手間を省くことができる. 本研究の目的は,単一文書を入力として単語ネットワークを構築することにより,読書支援に役立てることである.

実際に単一文書として「新聞記事」の単語ネットワークを構築し,単語ネットワークを利用した際の読書量に対する内容理解量を調査した. 調査の結果,「新聞記事」を単語ネットワークとして出力し利用することで,入力データ全体の約44%の読書量で,約44%の内容を把握できることを確認した.ランダムで段落を3つ抽出した場合は,読書率約42%に対して正解率32%となり,正解率の向上を確認できた.

「小説」を入力として単語ネットワークを構築し,本文中における出現箇所を調査した. 調査の結果,正規分布において約95%の範囲に単語ネットワーク構築に用いた単語が98%の確率で出現することを確認した.これにより,登場人物やある事柄など,単語ネットワークでノードとして出力されている単語の出現段落の推定が可能となった.

また,ノード対の有用性について調査した.調査の結果,入力データとして用いた6つの小説の全てで,5つ以上の有益なノード対が獲得できることを確認した.これにより,登場人物の特徴,2人の登場人物の関係性,物語における有益な情報のいずれかを獲得することができる.特に登場人物についての情報が多く獲得できたため,物語の大枠を捉えられる可能性から,読書支援にも有効であると考えられる.



s112054 2017-03-03