近年,ブログの急速な発達により,これまでは情報源として活用することが難しかった個人の意見や体験談などが,容易に収集できるようになった. 観光地開発のために情報を収集,分析しようとした時,実際に観光地に出かけた個人の意見,体験談というものは非常に有益なリソースであると考えられる. 観光地開発のためにブログ記事から観光情報分析を行うためには,ブログ記事に記述されている地名を正確に判定することが重要である. しかし,地名を扱う先行研究[1]において,複数の都道府県に存在する地名を扱うことができていない. そこで本研究では,複数の都道府県に存在する地名を扱うことが可能な,ブログ記事における地名解析を行うことを目的とする. 地名解析は,「手がかり語検出」および「都道府県名の曖昧性軽減」という二つの手法から構成する. 以下に,各手法と,その手法で用いるデータベースについて説明する.
手がかり語検出を行うために,「手がかり語辞書」を作成する. 手がかり語辞書は,都道府県を判定する手がかりとなる語と,その都道府県名の組からなる辞書である. 手がかり語辞書には,市区町村名のほか,施設名,イベント名,地形名,路線名などを登録する. この手がかり語辞書を用いて,手がかり語検出を行う. 手がかり語検出は,まずブログ文章の形態素解析を行って名詞を抽出する. 次に,抽出した名詞が手がかり語辞書に登録されているならば,その都道府県をブログ文章中にタグ形式で挿入する.
都道府県名の曖昧性軽減を行うために,「都道府県コーパス」を作成する. 都道府県コーパスは,Wikipediaにおける各都道府県について記述されたページに出現した固有名詞を抽出して作成する. 各都道府県のページから抽出した固有名詞を,その都道府県の共起語とする. この都道府県コーパスを用いて,都道府県名の曖昧性軽減を行う. 手がかり語検出にて検出された手がかり語には,複数の都道府県名が出力される場合がある. 余計に出力された都道府県名を抑制する処理が,都道府県名の曖昧性軽減である. 都道府県名の曖昧性軽減は,まずブログ記事内の固有名詞を抽出し,都道府県コーパスと照合し,ブログ記事単位の有力な都道府県名を決定する. 次に,一つの手がかり語に対して複数出力された都道府県名の中に決定した有力な都道府県名が存在すれば, 有力な都道府県名のみを出力するようにする.
本論文の構成は以下の通りである. 第2章で,地名解析を行う先行研究の概要と問題点について述べる. 第3章では,手がかり語辞書の作成方法について説明する. 第4章では,都道府県コーパスの作成方法について説明する. 第5章では,地名の解析手法について説明する. 第6章では,評価実験とその結果を示す. 第7章では,本手法における考察と今後の課題について述べる. 第8章では,本研究のまとめについて述べる.