next up previous contents
次へ: WWWテキストの解析の流れ 上へ: WWWからのテキスト収集と解析 戻る: WWWからのテキスト収集と解析   目次

Yahooカテゴリとそのサイト数

ダウンロード対象として,関根らの研究をならいYahoo!Japanを利用する. Yahooのカテゴリは14に分類されている.「エンターテインメント」,「メディ アとニュース」,「趣味とスポーツ」,「ビジネスと経済」,「芸術と人文」, 「各種資料と情報源」, 「生活と文化」,「コンピュータとインターネット」,「教育」, 「政治」,「健康と医学」,「自然科学と技術」,「社会科学」,「地域情報」 の14カテゴリである. 各カテゴリのトップページを出発点とし,そこから3リンク先までのサイトを対 象とする.14カテゴリ合計で48,244サイト 存在した(2005年6月時点).この中から各カテゴリごとにランダムで600サイトず つ,合計8,400サイトを選ぶ.8,400サイトについてホストが変わらない範囲で5リンク 先までのページをダウンロードする.



平成18年5月30日