次へ: 表記のゆれ対応
上へ: 国内観光情報サイトからの抽出
戻る: HTMLファイルのダウンロード
目次
国内観光情報サイトよりダウンロードを行ったHTMLファイルから一行ずつ文字列を取得し,手がかり語が書かれている部分を抽出する.
HTMLファイルの記述形式の解析を行った結果,図のカテゴリによって3パターンの記述形式が存在した.
記述形式ごとに,正規表現を用いて手がかり語の抽出を行う.
図に,パターンごとの正規表現を示す.
図:
パターンごとの正規表現
|
図に示されている正規表現にマッチした行から,()で囲まれている部分の文字列を手がかり語として抽出する.
どこの都道府県に属するHTMLファイルから手がかり語を抽出したかを記録しておくことで,手がかり語と都道府県名が階層構造を持った形で抽出できる.
例として,北海道の観光情報から抽出した手がかり語を,図に示す.
図:
抽出した手がかり語の例(北海道のHTMLファイルより)
|
平成23年3月3日