本研究で行う実験には以下のデータを使用する.
このデータは[1],[2]で使用したものであり,既に人手によるヒントの有無の判別およびヒントのカテゴリ(後述)の付与が完了している.実験ではこのデータを学習データとして使用する.
このデータはYahoo!ブログの「旅行」の項目に登録されたブログから,「江ノ島海岸」,「三陸海岸」,「若狭湾」をそれぞれ検索キーとして記事を検索して得られた444記事,12,044文である.検索は2010年7月16日に行われた.
このデータは実験を行うにあたって新しく用意したデータである.実験の正解データを作成するためにまずこのデータに人手でヒントの有無を付与する.さらに,ヒントであるものにはヒントのカテゴリを付与する.実験ではこのデータをテストデータとして使用する.
このデータはYahoo!ブログの「旅行」の項目で「糸魚川 観光」という検索キーで得られた95記事,3,222文である.検索は2011年10月19日に行われた.