next up previous contents
次へ: 収集結果 上へ: ダウンロード 戻る: wgetによるサーバへの負担   目次

ファイル管理

本研究では大量のWEBドキュメントファイルを扱うため,どのようなファイルが どこにあるかといった情報を管理する必要がある.そこで,HTMLファイルを収集 する際に,各カテゴリごとに以下の情報をアーカイブとして保持する.

本研究におけるアーカイブの例を図6に示す.

図 6: 本研究におけるアーカイブの例
\fbox{
\includegraphics[width=9cm]{arc.eps}
}

6に示す通り,本研究ではカテゴリごとに``ファイル1'',``ファイル 2''の2つのファイルを用いてアーカイブを構築する.ファイル1は,HTMLのソー スを管理するファイルであり,1つのカテゴリにおいて収集したHTMLのソース全 てを羅列しているファイルである.ファイル2は,URL,ファイル1においての先 頭ブロック位置,容量,HTMLの更新日時を管理するファイルであり,URLをキー としてファイル1との関連付けを行うデータベースである.

提案システムでは以降の処理において,収集したHTMLに対して文抽出および形態 素解析を行うが,その際に得られた結果もそれぞれアーカイブ化して保存する. 文抽出においては,新たに作成したアーカイブに,HTMLと対応するURLをキーと して用いる.形態素解析においては,解析した文ごとに管理するため,URLの末 尾に文の通番を追加してキーとして用いる. これにより,同じURLのファイルに対するHTML,文抽出結果,および形態素解 析結果が,URLをキーとして一括管理できる.



平成21年3月23日