先行研究において,Webからのドキュメント収集はすでになされている.関根ら [3]はGNU Wgetを利用し,内容の信頼性よりYahoo!Japanでカテゴライ ズされているページ(Yahoo!カテゴリ)を起点として収集を行った.結果,29万 サイトを対象に,2,066万ページ(350GB)のHTMLを得て,KWICシステムに用いてい る.また奥村ら[4]は,Blogを対象とした自動収集システムが作成さ れている.またSekiguchiら[5]は,Webコーパスの作成を目的とし, 質の高いコーパス作成のための手法を提案している.その結果,3,505MBのHTML ファイルから,223MB文のテキストが抽出されている.