next up previous contents
次へ: 単語の出現頻度数 上へ: WWWからのテキスト収集と解析 戻る: 収集と解析の結果   目次

収集と解析の考察

8400サイト中7082サイトしかダウンロードしかできなかった理由として,すでに 存在しないサイトがあったことと,接続を拒否しているページがあったことが考 えられる.日本語抽出を行った結果,ファイル数が減った理由として,日本語が 含まれていないサイトがあったためである.形態素解析ミスについては,形態素 解析プログラム自体のミスの他に,まとめて入力する文の数による.本研究では 500文ごとに1ファイルにまとめて入力したが,これを1文1ファイルにすると解析 精度はあがる.しかし,時間とコストがかかるのでやはり多少精度は落ちても 500文程度が適当ではないかと思う.



平成18年5月30日