本研究では大量のWEBドキュメントファイルを扱うため,どのようなファイルが どこにあるかといった情報を管理する必要がある.そこで,HTMLファイルを収集 する際に,各カテゴリごとに以下の情報をアーカイブとして保持する.
本研究におけるアーカイブの例を図6に示す.
図6に示す通り,本研究ではカテゴリごとに``ファイル1'',``ファイル 2''の2つのファイルを用いてアーカイブを構築する.ファイル1は,HTMLのソー スを管理するファイルであり,1つのカテゴリにおいて収集したHTMLのソース全 てを羅列しているファイルである.ファイル2は,URL,ファイル1においての先 頭ブロック位置,容量,HTMLの更新日時を管理するファイルであり,URLをキー としてファイル1との関連付けを行うデータベースである.
提案システムでは以降の処理において,収集したHTMLに対して文抽出および形態 素解析を行うが,その際に得られた結果もそれぞれアーカイブ化して保存する. 文抽出においては,新たに作成したアーカイブに,HTMLと対応するURLをキーと して用いる.形態素解析においては,解析した文ごとに管理するため,URLの末 尾に文の通番を追加してキーとして用いる. これにより,同じURLのファイルに対するHTML,文抽出結果,および形態素解 析結果が,URLをキーとして一括管理できる.