next up previous contents
Next: ノードへの段落情報の付与 Up: 提案手法 Previous: TF-IDFにおけるDFの扱い   目次


段落分けによる入力データの処理

単一文書を入力として単語ネットワークを構築するため,入力データに段落分けの処理を行う. 先行手法の3.1.2節では,ノードとした単語(キーワード)に関連する単語を次のノードにするために,次のノード候補となる単語を取り出す方法として,キーワードを含む記事の抽出を行っている.しかし,単一文書を入力とした場合にはキーワードに関する記事を限定して抽出することができない.キーワードを含む文書として入力データ全体が抽出されてしまい,ノード候補となる単語が入力データ内の全単語となってしまう.そこで,入力データを段落で分割し,文書群として扱うことで対応する.これにより段落で分割されたキーワードを含む文書群からキーワードに関連するノード候補を獲得することが可能となる.



s112054 2017-03-03