形態素解析について

本研究ではクラスタリング時の形態素解析にMeCabを用いているが,単語によって分割のされ方が異なる.例えば,「慶應義塾大学法学部」という文字列はそのまま一つの固有名詞として認識されるが,「同志社大学商学部」という文字列は「同志社大学」と「商学部」で分割される.このように同種の文字列でも分割のされ方が異なることでテンプレートの種類が増えてしまい,同じテンプレートが出現しにくくなると考える.そのため,MeCab以外の形態素解析ツールの性能を調査し,最適なツールを選択する必要がある.