そこで本研究では,複数の都道府県に存在する地名を扱うことが可能な,ブログ記事における地名解析を行うことを目的とする. 本研究で提案する地名解析の手法は,「手がかり語検出」および「都道府県名の曖昧性軽減」という二つの手法から構成する.
手がかり語検出を行うために,「手がかり語辞書」を作成する. 手がかり語辞書は,都道府県を判定する手がかりとなる語と,その都道府県名の組から構成する辞書である. 手がかり語辞書には,市区町村名のほか,施設名,イベント名,地形名,路線名などを登録する. この手がかり語辞書を用いて,手がかり語検出を行う. 手がかり語検出は,まずブログ文章の形態素解析を行って名詞を抽出する. 次に,抽出した名詞が手がかり語辞書に登録されているならば,その都道府県をブログ文章中にタグ形式で挿入する.
都道府県名の曖昧性軽減を行うために,「都道府県コーパス」を作成する. 都道府県コーパスは,Wikipediaにおける各都道府県について記述されたページに出現した固有名詞を抽出して作成する. 各都道府県のページから抽出した固有名詞を,その都道府県の共起語とする. この都道府県コーパスを用いて,都道府県名の曖昧性軽減を行う. 手がかり語検出にて検出された手がかり語には,複数の都道府県名が出力される場合がある. この余計に出力された都道府県名を抑制する処理が,都道府県名の曖昧性軽減である. 都道府県名の曖昧性軽減は,まずブログ記事内の固有名詞を抽出し,都道府県コーパスと照合し,ブログ記事単位の有力な都道府県名を決定する. 次に,一つの手がかり語に対して複数出力された都道府県名の中に決定した有力な都道府県名が存在すれば, 有力な都道府県名のみを出力し,複数出力された都道府県名の中に決定した有力な都道府県名が存在しない場合は,そのまま出力する.
以上の提案手法に対する評価実験において, 手がかり語検出では,正解となる手がかり語の文字列のうち一部を手がかり語として検出できればよいという評価においてF値で0.662という評価結果であった. 都道府県名の曖昧性軽減では,評価対象を上述の手がかり語検出において正しく検出できた手がかり語に限定した場合において,F値で0.566という評価結果であった. 正解手がかり語のうち一部を検出できればよいという評価において手がかり語検出を行い,評価対象を限定せずに都道府県名の曖昧性軽減を行ったときの, 本手法全体の評価は,F値で0.336という評価結果であった. 一方,ブログ記事単位で有力な都道府県名を判定する性能の評価は,一致率で60%となった. よってこれら評価結果より,手がかり語辞書を用いて手がかり語検出を行い,その後都道府県コーパスを用いて都道府県名の曖昧性軽減を行うという本研究で提案した 地名解析の手法の有用性を確認した.