next up previous contents
次へ: 手がかり語検出 上へ: 地名の解析手法 戻る: 地名の解析手法   目次

地名の解析手法の概要

本節では,本研究において行う地名解析の全体像について説明する. 本研究における地名の解析は,「手がかり語検出」と「都道府県名の曖昧性軽減」という2つの手法から構成する. 地名解析における入力データはブログ記事である.

まずブログ記事中の,場所を判定する手がかりとなる語にその都道府県名をタグ形式で文章中に挿入する. この処理が手がかり語検出である. 手がかり語検出を行うために,場所を判定する手がかりとなる語とその都道府県名が組になって登録されている「手がかり語辞書」を用いる.

次に,1つの手がかり語に対して複数出力された都道府県名に対し,ブログ記事単位の有力都道府県名を判定して マスク処理を行い,余計な都道府県名の出力を抑制する. この処理が都道府県名の曖昧性軽減である. 都道府県名の曖昧性軽減を行うために,各都道府県名と共起する単語が登録されている「都道府県コーパス」を用いる.

以上の2つの提案手法を用いて,場所を判定する手がかりとなる語に曖昧性が軽減された都道府県名がタグ形式で付与されているブログ記事が出力される.



平成23年3月3日