次へ: 単語の出現頻度数
上へ: WWWからのテキスト収集と解析
戻る: 収集と解析の結果
目次
8400サイト中7082サイトしかダウンロードしかできなかった理由として,すでに
存在しないサイトがあったことと,接続を拒否しているページがあったことが考
えられる.日本語抽出を行った結果,ファイル数が減った理由として,日本語が
含まれていないサイトがあったためである.形態素解析ミスについては,形態素
解析プログラム自体のミスの他に,まとめて入力する文の数による.本研究では
500文ごとに1ファイルにまとめて入力したが,これを1文1ファイルにすると解析
精度はあがる.しかし,時間とコストがかかるのでやはり多少精度は落ちても
500文程度が適当ではないかと思う.
平成18年5月30日