次へ: 日本語抽出
上へ: WWWテキストの解析の流れ
戻る: WWWテキストの解析の流れ
目次
ダウンロードしたテキストを処理しやすいように,EUCコードに変換する.
WWWテキストのコンテ
ントタイプを確認し,Rubyのkconvコマンドで入力を
直接指定する.入力が直接指定できない場合,kconvコマンドの自動認
識で処理する.表1に直接入力指定可能コード,表2にWWWページか
らランダムに選んだ2000件のコンテント
タイプを示す.
表 1:
kconv直接入力指定可能コード
文字コード |
ISO-2022-JP |
EUC-JP |
Shift_JIS |
ASCII |
UTF-8 |
UTF-16 |
表 2:
コンテントタイプ
文字コード |
件数 |
Shift_JIS |
1,763 |
EUC-JP |
203 |
x-euc-jp |
3 |
x-sjis-jp |
1 |
x-sjis |
12 |
iso-8859-1 |
18 |
平成18年5月30日