本研究では,Yahoo!カテゴリ3登録サイトを 収集の対象とする.Yahoo!カテゴリにはテーマやジャンルごとに分類された14の カテゴリがある.今回,各カテゴリからランダムに600サイトを選び,HTMLファ イルを収集する.ただし,以下に示す一部のサイトに関しては,再帰的回収にお いて問題があるため対象外とする.