次へ: WWWテキストの解析の流れ
上へ: WWWからのテキスト収集と解析
戻る: WWWからのテキスト収集と解析
目次
ダウンロード対象として,関根らの研究をならいYahoo!Japanを利用する.
Yahooのカテゴリは14に分類されている.「エンターテインメント」,「メディ
アとニュース」,「趣味とスポーツ」,「ビジネスと経済」,「芸術と人文」,
「各種資料と情報源」,
「生活と文化」,「コンピュータとインターネット」,「教育」,
「政治」,「健康と医学」,「自然科学と技術」,「社会科学」,「地域情報」
の14カテゴリである.
各カテゴリのトップページを出発点とし,そこから3リンク先までのサイトを対
象とする.14カテゴリ合計で48,244サイト
存在した(2005年6月時点).この中から各カテゴリごとにランダムで600サイトず
つ,合計8,400サイトを選ぶ.8,400サイトについてホストが変わらない範囲で5リンク
先までのページをダウンロードする.
平成18年5月30日