実験データとして電話帳の企業名を使用した。電話帳から企業数約440万件を 選出し、人手によって形態素解析を行なった(以下、形態素解析データベース)。 このデータベースを学習データとして単語辞書および-gramの連鎖確率値の 計算に使用した。また、新規の企業名1万件を電話帳から抜き出し、これを testデータとした。
表1に形態素解析データベースの例を示す。
企業名 | 形態素解析データ |
(入力データ) | (出力データ) |
あさひだるま | あさひ+だるま |
お好み焼童子 | お好み焼%童子 |
くるまやラーメン | くるまや+ラーメン |
ろばた焼童子 | ろばた焼%童子 |
江南赤童子店 | 江南%赤童子店 |
本データベースには、3種類の単語区切りが使用されている。 これらの単語区切りの意味を以下に示す。
接辞境界の前後は接頭語もしくは接尾語になる。 (例:や、店)
本論文ではキーワード検索を目的としたため、本データベースの単語は、通 常の形態素解析の単語より短い傾向にある。 (例: あさひ、だるま)
本データベースは、合成音声で企業名を出力できるようにするため、人間がポー ズをつける単語境界をアクセント句境界とした[2]。