前述のような情報を得るためには,実際に体験した人が記述した旅に関するブログ記事を閲覧することが挙げられる.旅行者のブログ記事には多くの体験談が記述されており,体験談に対する感想や評価など農業従事者や旅行エージェントらにとって有益な情報が含まれているため,旅行者の行動を分析する対象となっている.しかし,ブログサイトで検索キーワードを打ち込み,ブログを閲覧すると,ブログ記事文中にはフルーツ狩りと無関係な記述を見かける.例えば,ブログ作成者から読者に宛てたあいさつ文などである.この記述はフルーツ狩りとは無関係である.また,ブログ記事の話題に統一性がない.例えば,フルーツ狩りの体験談を記述していたが,途中から連れていたペットの話になるなどである.そのため,分析者はブログ記事を類似する体験談にまとめ,さらに,分析に必要な体験談に絞り閲覧をしたい.
先行研究[1]では,「フルーツ狩り」のうち,「ブルーベリー狩り」に焦点を当てた.そこで,ブログ記事を類似する体験談にまとめた.さらに,分析に必要な体験談に絞り閲覧するために,動詞を素性に利用することで分析を行った.しかし,この方法では,ブルーベリー狩りと無関係な記述が混ざることが多く,分析者は余分な文章を読まなければならない.一方,近年,トピックに基づく分類(LDA;Latent Dirichlet Allocation)が用いられている[2].LDAは文書素性の次元圧縮に利用可能である.そこで,本研究は,ブルーベリー狩りの行動分析タスクにおいて「LDAにおけるトピックを素性に利用する方法」と「動詞を素性に利用する方法」との比較調査を目的とする.