next up previous contents
次へ: wgetによるサーバへの負担 上へ: ダウンロード 戻る: 登録サイトリストの作成   目次

収集方法

4.1.2の表1に示すサイトにおいて,各カテゴリごとに ランダムで600サイトを選択し,各サイトごとにホストが変わらない範囲で5リン ク先までのページからHTMLを収集する.収集にはGNU Wgetを使用する.HTMLの収 集において,注意すべき問題点を以下に示す.

wgetによるサーバへの負担:
同じサーバに対する長時間のリクエストや, 大量のデータを一度に受信する際にかかるサーバへの負担.

ファイル管理:
大量のWEBドキュメントファイルを扱うための情報管理.



平成21年3月23日