next up previous contents
次へ: 全角文字変換 上へ: WWWテキストの解析の流れ 戻る: EUCコード変換   目次

日本語抽出

EUCコードに変換したテキストから日本語が含まれている行を抜き出す.まずWWW テキストからおおまかな日本語抽出を行う.行単位で見ていき,日本語が 含まれている行だけに絞りこむ.次に細かい抽出を行う.WWW の日本語部分はタグとタグの間にあるということを利用し,タグとタグの 間に全角文字が半角文字に比べ,8割以上ある部分を抽出する.これによ り,短くて使えない文とタグを排除する.この2回の抽出作業により,ほぼ日本 語だけのテキスト文が完成する. indexのページは使えない部分が多いため,抽出対象外となった.



平成18年5月30日