next up previous
次へ: 文献目録 上へ: 高次-gramを用いた形態素解析の研究 1 戻る: 正解率

まとめ

本論文では、検索のために企業名に単語区切りを入れる目的で、漢字仮名の $6$-gramを使用したときの形態素解析の実験結果を報告した。まず電話帳から 全国の企業440万件を選出し、人手によって単語区切りをいれた。このデータ から単語辞書と漢字仮名の$N$-gramの連鎖確率値を計算した。そして、これら のデータを用いて新規1万件の企業名に対して形態素解析を行い、人手によっ て単語区切りを入れた結果と比較した。この結果 $6$-gramを使用することで 1位正解率で83.6% 2位正解率で89.2%の高い正解率が得られた。

また、誤りとされた候補の中にも正解と見なせる候補が多く、実際の 1位正解 率は91%を越えることが示された。



平成15年9月30日