next up previous contents
次へ: 都道府県名の曖昧性軽減 上へ: 考察 戻る: 考察   目次

手がかり語検出

手がかり語検出において,最もF値が高かったのは形態素解析において「名詞,固有名詞,地域」,「名詞,固有名詞,一般」のみを抽出対象とした場合であった. これは,他の3つの抽出対象による区分よりも適合率が高かったためである. 抽出対象に強く制限をかけるほど,若干の誤差はあるものの適合率が上昇していき再現率は低下していくという形になった. これは場所を判定する手がかりとなる語には,一般に使われる名詞,人名にも用いられる名詞,固有名詞とさまざまなものが含まれており, 抽出対象に制限をかければ手がかり語として信頼性の高いものが得られるが,同時に本当は手がかり語であるものを除外してしまうためだと考えられる.

上記のように形態素解析による検出誤りには,もうひとつの誤り原因が存在する. それは,名詞連続の過分割である. 名詞連続から構成される単語を正解手がかり語とした場合,その名詞連続を形態素解析によって別の単語であると判定されてしまう場合がある. このとき,正解手がかり語が手がかり語辞書に登録されていても,正解手がかり語となる単語を分割してそれぞれにおいて手がかり語辞書を参照してしまったために, 正しく手がかり語検出が行えない. このような,形態素解析が原因の手がかり語検出誤りがあると考えられる. この対策としては,本研究では実装できていないが,形態素解析結果において隣接する名詞は,それぞれにおいて手がかり語辞書を参照するとともに, 隣接する名詞は一つの単語とみなして手がかり語辞書を参照するという処理がある.

さらに,正しく形態素解析が行えたが,もともとその単語が手がかり語辞書に登録されていなかったという誤り原因も存在する. この対策としては,手がかり語辞書の登録件数を増やすということが考えられる. しかし,手がかり語と都道府県名を信頼性高く同時に取得する手段は限られているという問題がある.



平成23年3月3日