近年、-gramを用いた形態素解析の研究が盛んになっている[1]。 しかし、これらの研究では、次数が2(bigram)もしくは3(trigram)であり、高 次での結果はあまり報告されていない。本論文では、漢字仮名の6-gramを使用 したときの形態素解析の実験結果を報告する。
ここでは、検索のために企業名に単語区切りを入れる目的で形態素解析を行なっ た。まず電話帳から全国の企業440万件を選出し、人手によって単語区切りを いれた。次にこのデータから単語辞書と漢字仮名の-gramの連鎖確率値を計 算した。最後に、これらのデータを用いて新規1万件の企業名に対して形態素 解析を行い、人手によって単語区切りを入れた結果と比較した。この結果 -gramを使用することで 1位正解率で83.6% 2位正解率で89.2%の正解率が得ら れた。