次へ: 表記のゆれ対応
上へ: 国内観光情報サイトからの抽出
戻る: HTMLファイルのダウンロード
目次
国内観光情報サイトよりダウンロードを行ったHTMLファイルから一行ずつ文字列を取得し,手がかり語が書かれている部分を抽出する.
HTMLファイルの記述形式の解析を行った結果,図
のカテゴリによって3パターンの記述形式が存在した.
記述形式ごとに,正規表現を用いて手がかり語の抽出を行う.
図
に,パターンごとの正規表現を示す.
図:
パターンごとの正規表現
![\begin{figure}\begin{center}
\begin{tabular}{l} \hline
・カテゴリ「日本百選」 \\...
...t /\A■<.*?>(.*?)<\/A>.*/\vert \hline
\end{tabular}\end{center}
\end{figure}](img6.png) |
図
に示されている正規表現にマッチした行から,()で囲まれている部分の文字列を手がかり語として抽出する.
どこの都道府県に属するHTMLファイルから手がかり語を抽出したかを記録しておくことで,手がかり語と都道府県名が階層構造を持った形で抽出できる.
例として,北海道の観光情報から抽出した手がかり語を,図
に示す.
図:
抽出した手がかり語の例(北海道のHTMLファイルより)
![\begin{figure}\begin{center}
\begin{tabular}{l} \hline
円山動物園 \\
のぼりべつ...
...ファリサッポロ \\
おたる水族館 \hline
\end{tabular}\end{center}
\end{figure}](img7.png) |
平成23年3月3日