next up previous contents
Next: 不要単語リストの作成 Up: 提案手法 Previous: 提案手法   目次


検索エンジンを用いたネットワークの作成

テーマキーワードに関する情報が使用する新聞データに少ない場合,情報量が不十分なネットワークが作成されてしまう.そのため,幅広いテーマキーワードでネットワークを作成するには不適切である.そこで,幅広いテーマキーワードでネットワークの作成を行うため,検索エンジンを用いてネットワークの作成を行う.本研究では,4.3節と4.4節のベースとなるこの節で述べる手法を,基本手法とする.検索エンジンにはBing Search API[10]を用い,検索結果の上位50件を利用する.また,DFの計算にはWikipedia(2016年10月まで)を用いる.基本手法によるネットワークの作成手順を以下に示す.


手順1
構築したいネットワークの主となる概念を,テーマキーワードとして設定する.
手順2
検索エンジンを用い,テーマキーワードの検索結果を記事群Aとして作成する.
手順3
記事群Aのテーマキーワードが含まれている記事のみを利用するために,記事群Aからテーマキーワードを含む記事を抽出し,記事群Bを作成する.2回目以降は,テーマキーワードと新たなキーワードをそれぞれ含む記事を抽出する.
手順4
記事群Bに形態素解析を用い,ノード候補となる単語を抽出する.その際に1文字,数字のみの単語を除外する.また,4.2節の不要単語リストに含まれる単語も除外する.
手順5
得られたノード候補の中から,TF-IDFの値を用いて,その値が最も大きい5単語を次のノードとする.
手順6
テーマキーワードと次のノードとなった単語で検索エンジンを用いてアンド検索を行い,新しい検索結果で記事群Aを再度作成する.その後,次のノードの単語を新たなキーワードとし,手順3より同様の処理を繰り返すことでネットワークを拡大していく.例として,テーマキーワードが「宇宙」,新たなキーワードが「飛行」の場合,「宇宙 飛行」で検索を行い, その検索結果を記事群Aとして使用する.



2017-04-20