Next: ノードへの段落情報の付与
Up: 提案手法
Previous: TF-IDFにおけるDFの扱い
目次
段落分けによる入力データの処理
単一文書を入力として単語ネットワークを構築するため,入力データに段落分けの処理を行う.
先行手法の3.1.2節では,ノードとした単語(キーワード)に関連する単語を次のノードにするために,次のノード候補となる単語を取り出す方法として,キーワードを含む記事の抽出を行っている.しかし,単一文書を入力とした場合にはキーワードに関する記事を限定して抽出することができない.キーワードを含む文書として入力データ全体が抽出されてしまい,ノード候補となる単語が入力データ内の全単語となってしまう.そこで,入力データを段落で分割し,文書群として扱うことで対応する.これにより段落で分割されたキーワードを含む文書群からキーワードに関連するノード候補を獲得することが可能となる.
s112054
2017-03-03