図に示されている正規表現にマッチした行から,()で囲まれている部分の文字列を手がかり語として抽出する. どこの都道府県に属するHTMLファイルから手がかり語を抽出したかを記録しておくことで,手がかり語と都道府県名が階層構造を持った形で抽出できる. 例として,北海道の観光情報から抽出した手がかり語を,図に示す.