next up previous contents
次へ: 国内観光情報サイトからの抽出 上へ: 郵便番号データからの抽出 戻る: 表記のゆれ対応   目次

抽出結果

郵便番号データから抽出した都道府県名と手がかり語の組の例を,図[*]に示す. 図[*]に示す通り,都道府県名と手がかり語が組になって記述される形式になっている.

図: 郵便番号データから抽出した都道府県名と手がかり語の組の例
\begin{figure}\begin{center}
\begin{tabular}{l} \hline
愛知,あし原 \\
愛知,あし...
...
愛知,いろは \\
愛知,いろは町  \hline
\end{tabular}
\end{center}\end{figure}

[*]に,郵便番号データから抽出した手がかり語の件数を示す. ここで,都道府県名ありとは,手がかり語と都道府県名が組になっている場合の抽出件数である. 都道府県なしとは,手がかり語のみを抽出しユニークをとった場合の抽出件数である. 手がかり語のみを抽出しユニークをとると件数が減少するのは,異なる都道府県に同一の手がかり語が存在するためである.


表: 郵便番号データから抽出した手がかり語の件数
状態 件数
都道府県名あり 152,903件
都道府県名なし 108,992件



平成23年3月3日