Next: 不要単語リストの作成
Up: 提案手法
Previous: 提案手法
目次
検索エンジンを用いたネットワークの作成
テーマキーワードに関する情報が使用する新聞データに少ない場合,情報量が不十分なネットワークが作成されてしまう.そのため,幅広いテーマキーワードでネットワークを作成するには不適切である.そこで,幅広いテーマキーワードでネットワークの作成を行うため,検索エンジンを用いてネットワークの作成を行う.本研究では,4.3節と4.4節のベースとなるこの節で述べる手法を,基本手法とする.検索エンジンにはBing Search API[10]を用い,検索結果の上位50件を利用する.また,DFの計算にはWikipedia(2016年10月まで)を用いる.基本手法によるネットワークの作成手順を以下に示す.
- 手順1
- 構築したいネットワークの主となる概念を,テーマキーワードとして設定する.
- 手順2
- 検索エンジンを用い,テーマキーワードの検索結果を記事群Aとして作成する.
- 手順3
- 記事群Aのテーマキーワードが含まれている記事のみを利用するために,記事群Aからテーマキーワードを含む記事を抽出し,記事群Bを作成する.2回目以降は,テーマキーワードと新たなキーワードをそれぞれ含む記事を抽出する.
- 手順4
- 記事群Bに形態素解析を用い,ノード候補となる単語を抽出する.その際に1文字,数字のみの単語を除外する.また,4.2節の不要単語リストに含まれる単語も除外する.
- 手順5
- 得られたノード候補の中から,TF-IDFの値を用いて,その値が最も大きい5単語を次のノードとする.
- 手順6
- テーマキーワードと次のノードとなった単語で検索エンジンを用いてアンド検索を行い,新しい検索結果で記事群Aを再度作成する.その後,次のノードの単語を新たなキーワードとし,手順3より同様の処理を繰り返すことでネットワークを拡大していく.例として,テーマキーワードが「宇宙」,新たなキーワードが「飛行」の場合,「宇宙 飛行」で検索を行い, その検索結果を記事群Aとして使用する.
2017-04-20