従来研究におけるWebのクローリング

次へ: 従来研究における情緒推定 上へ: 関連研究 戻る: Web上における情緒を利用したシステム目次

従来研究におけるWebのクローリング

先行研究において，Webからのドキュメント収集はすでになされている．関根ら [3]はGNU Wgetを利用し，内容の信頼性よりYahoo!Japanでカテゴライズされているページ（Yahoo!カテゴリ）を起点として収集を行った．結果，29万サイトを対象に，2,066万ページ(350GB)のHTMLを得て，KWICシステムに用いている．また奥村ら[4]は，Blogを対象とした自動収集システムが作成されている．またSekiguchiら[5]は，Webコーパスの作成を目的とし，質の高いコーパス作成のための手法を提案している．その結果，3,505MBのHTML ファイルから，223MB文のテキストが抽出されている．

平成21年3月23日