next up previous contents
次へ: 収集と解析の考察 上へ: WWWからのテキスト収集と解析 戻る: 形態素・意味解析   目次

収集と解析の結果

8,400サイトのうち,ダウンロードできたものは7,082サイトだった.1サイト1ファ イルとして日本語を抽出した結果,4,116ファイルが残った. 4,116ファイルを形態素解析した.入力文数は14,522,344文で,出力 文は11,793,675文であった.1カテゴリあたりの解析 時間は平均28時間となった.カテゴリ別の結果を表3に示す.


表 3: ファイル数と形態素解析結果
カテゴリ 抽出後ファイル数 原文サイズ/文 解析後サイズ/文
エンター 329 65.1M/983,613 622.1M/838,258
メディア 302 91.4MM/1,299,630 845.8M/1,117,581
趣味 334 61.2M/921,765 547.2M/768,074
ビジネス 329 138.3M/1,835,577 1.1G/1,528,314
芸術 296 43M/639,046 384.4M/528,302
各種資料 280 106.3M/1,499,196 938.8M/1,201,811
生活 337 85.3M/1,154,434 762.2M/914,820
教育 293 48.2M/665,960 391.4M/489,500
政治 266 45.3M/613,008 382.1M/444,104
健康 377 1.2G/1,746,695 1.2G/1,4
自然科学 315 44M/705,285 365.9M/538,653
社会科学 229 80.1M/1,111,876 584.4M/919,366
地域情報 254 45.9M/785,361 585.4M/613,197
computer 174 42.2M/560,898 342.6M/432,558



平成18年5月30日