観光地開発のヒントを得るために,ブログ記事を分析する研究が行われている.しかし,ブログ記事の全てが観光開発のヒントとなるわけではないため,分析者の負担を軽減するためにブログ文からヒントとなる文を機械的に抽出できることが望まれる.その抽出方法の1つとしてSVM(Support Vector Machine)を用いる方法がある.しかし,抽出された文集合におけるヒントの含有率をさらに高めることが課題となっている.
本研究では,ブログ記事のヒント分析を進めると自然に正例と負例が得られることに注目した.まず通常の学習および分類を行い,ヒントの可能性がある文のうちいくらかを分析する.分析を行ったデータはヒントか否かの情報が得られ,この正例と負例のデータをSVMの学習データに追加して再学習し,残りの分析対象の再分類を行うという能動学習の手法を提案する.
本研究ではSVMの学習データとして江ノ島,三陸海岸,若狭湾のブログデータ12,044文を用い,テストデータとして糸魚川のブログ文3,222文を用いた.これらのデータに対しSVMを使用せず全ての文の分析を行った場合,SVMによる分類を1回のみ行った場合,SVMによる分類を2回すなわち再学習を行った場合の3通りの手法に対し,性能を比較する実験を行った.
その結果,分析すべき文の量を削減しさらにヒントの含有率を高めることに成功した.これにより,能動学習を用いることでブログ記事の分析性能が向上することが確認された.しかしながら,再学習前と再学習後にどの程度の割合の文を分析すべきかを求めることはできていないため,今後の課題はこれらの割合を分析を行う前に求めることである.