next up previous contents
次へ: 本研究の目的 上へ: 関連研究 戻る: クラスタリング   目次

キーワード抽出

キーワード抽出とは,文章を構成する要素一つ一つの登場頻度,互いの繋がりの強さや数 などを計算して,重要な役割を果たしている要素を分類・抽出することで ある. 文書に含まれる単語の特徴度は,TF-IDFやBM25により算出されることがある. しかし,観光分析のための行動のキーワードを得るためには, 「何かを,どうにかする」というように,対象と行動の組が得られる方が 分かりやすいと予想した.1単語ごとの特徴度よりも単語の共起に着目する 抽出法が妥当と予想した.

ここで,意見の分析において,KeyGraph[8]を用いた研究事例がある[9]. KeyGraphでは,文書における,単語の分類,および,単語間の関係に ついて「土台」,「屋根」,「柱」という概念を導入した.これらの概念は, 文書中の文単位での単語の共起の仕方により定義される.KeyGraphは, これらの概念をグラフ(辺とノード)で表示することで,さらに,分かりやすく 文書の構造を表現することに使われる.

ただし,KeyGraphに基づく分析とグラフの表示は,ライセンスの下で 使用するソフトウエアを必要とする[10].本研究では,文献[8]に示された 計算式に基づきグラフ(辺とノード)の生成を実装し,グラフの可視化は, graphviz ライブラリの dot コマンド[11]を使用する.



平成24年3月13日