データ量に差があっても,閾値100のカバー率に差がない.
閾値500からはデータ量の差がでてくる.閾値1,000では,芸術がデータ量の割にカバー率が高
く,逆に社会科学は期待より低いカバー率
となった.コンピュータにおいては閾値100から閾値500カバー率の低下が大きかっ
た.
カテゴリ名 | 解析後文数 | 閾値100 | 閾値500 | 閾値1,000 |
健康 | 1,459,137 | 98% | 92% | 89% |
ビジネス | 1,528,314 | 97% | 92% | 84% |
各種資料 | 1,201,811 | 97% | 91% | 85% |
メディア | 1,117,581 | 97% | 91% | 85% |
生活 | 914,820 | 96% | 90% | 83% |
社会科学 | 919,366 | 96% | 88% | 78% |
エンター. | 838,258 | 95% | 89% | 81% |
趣味 | 768,074 | 96% | 88% | 79% |
教育 | 489,500 | 93% | 84% | 73% |
地域情報 | 613,197 | 94% | 83% | 70% |
政治 | 444,104 | 95% | 82% | 71% |
自然科学 | 538,653 | 94% | 80% | 68% |
芸術 | 528,302 | 95% | 84% | 72% |
コンピュ. | 432,558 | 94% | 78% | 65% |