次へ: wgetによるサーバへの負担
上へ: ダウンロード
戻る: 登録サイトリストの作成
目次
4.1.2の表1に示すサイトにおいて,各カテゴリごとに
ランダムで600サイトを選択し,各サイトごとにホストが変わらない範囲で5リン
ク先までのページからHTMLを収集する.収集にはGNU Wgetを使用する.HTMLの収
集において,注意すべき問題点を以下に示す.
- wgetによるサーバへの負担:
- 同じサーバに対する長時間のリクエストや,
大量のデータを一度に受信する際にかかるサーバへの負担.
- ファイル管理:
- 大量のWEBドキュメントファイルを扱うための情報管理.
平成21年3月23日