next up previous contents
次へ: 日本語抽出 上へ: WWWテキストの解析の流れ 戻る: WWWテキストの解析の流れ   目次

EUCコード変換

ダウンロードしたテキストを処理しやすいように,EUCコードに変換する. WWWテキストのコンテ ントタイプを確認し,Rubyのkconvコマンドで入力を 直接指定する.入力が直接指定できない場合,kconvコマンドの自動認 識で処理する.表1に直接入力指定可能コード,表2にWWWページか らランダムに選んだ2000件のコンテント タイプを示す.


表 1: kconv直接入力指定可能コード
文字コード
ISO-2022-JP
EUC-JP
Shift_JIS
ASCII
UTF-8
UTF-16


表 2: コンテントタイプ
文字コード 件数
Shift_JIS 1,763
EUC-JP 203
x-euc-jp 3
x-sjis-jp 1
x-sjis 12
iso-8859-1 18



平成18年5月30日