next up previous contents
次へ: 表記のゆれ対応 上へ: 国内観光情報サイトからの抽出 戻る: HTMLファイルのダウンロード   目次

抽出方法

国内観光情報サイトよりダウンロードを行ったHTMLファイルから一行ずつ文字列を取得し,手がかり語が書かれている部分を抽出する. HTMLファイルの記述形式の解析を行った結果,図[*]のカテゴリによって3パターンの記述形式が存在した. 記述形式ごとに,正規表現を用いて手がかり語の抽出を行う. 図[*]に,パターンごとの正規表現を示す.

図: パターンごとの正規表現
\begin{figure}\begin{center}
\begin{tabular}{l} \hline
・カテゴリ「日本百選」 \\...
...t /\A■<.*?>(.*?)<\/A>.*/\vert  \hline
\end{tabular}\end{center}
\end{figure}

[*]に示されている正規表現にマッチした行から,()で囲まれている部分の文字列を手がかり語として抽出する. どこの都道府県に属するHTMLファイルから手がかり語を抽出したかを記録しておくことで,手がかり語と都道府県名が階層構造を持った形で抽出できる. 例として,北海道の観光情報から抽出した手がかり語を,図[*]に示す.

図: 抽出した手がかり語の例(北海道のHTMLファイルより)
\begin{figure}\begin{center}
\begin{tabular}{l} \hline
円山動物園 \\
のぼりべつ...
...ファリサッポロ \\
おたる水族館  \hline
\end{tabular}\end{center}
\end{figure}



平成23年3月3日