抽出方法

次へ: 表記のゆれ対応 上へ: 国内観光情報サイトからの抽出 戻る: HTMLファイルのダウンロード目次

抽出方法

国内観光情報サイトよりダウンロードを行ったHTMLファイルから一行ずつ文字列を取得し，手がかり語が書かれている部分を抽出する． HTMLファイルの記述形式の解析を行った結果，図

のカテゴリによって3パターンの記述形式が存在した．記述形式ごとに，正規表現を用いて手がかり語の抽出を行う．図

に，パターンごとの正規表現を示す．

図: パターンごとの正規表現
$\begin{figure}\begin{center} \begin{tabular}{l} \hline ・カテゴリ「日本百選」 \\... ...t　/\A■<.?>(.?)<\/A>.*/\vert \hline \end{tabular}\end{center} \end{figure}$

図に示されている正規表現にマッチした行から，()で囲まれている部分の文字列を手がかり語として抽出する．どこの都道府県に属するHTMLファイルから手がかり語を抽出したかを記録しておくことで，手がかり語と都道府県名が階層構造を持った形で抽出できる．例として，北海道の観光情報から抽出した手がかり語を，図に示す．

図: 抽出した手がかり語の例（北海道のHTMLファイルより）
$\begin{figure}\begin{center} \begin{tabular}{l} \hline 円山動物園 \\ のぼりべつ... ...ファリサッポロ \\ おたる水族館 \hline \end{tabular}\end{center} \end{figure}$

平成23年3月3日