next up previous
次へ: 単語抽出部 上へ: 実験条件 戻る: 実験条件

形態素解析データベース

実験データとして電話帳の企業名を使用した。電話帳から企業数約440万件を 選出し、人手によって形態素解析を行なった(以下、形態素解析データベース)。 このデータベースを学習データとして単語辞書および$N$-gramの連鎖確率値の 計算に使用した。また、新規の企業名1万件を電話帳から抜き出し、これを testデータとした。

1に形態素解析データベースの例を示す。


表 1: 形態素解析データベースの例
企業名 形態素解析データ
(入力データ) (出力データ)
あさひだるま あさひ+だるま
お好み焼童子 お好み焼%童子
くるまやラーメン くるま$\vert$や+ラーメン
ろばた焼童子 ろばた焼%童子
江南赤童子店 江南%赤童子$\vert$

本データベースには、3種類の単語区切りが使用されている。 これらの単語区切りの意味を以下に示す。

$\vert$
: 接辞境界

接辞境界の前後は接頭語もしくは接尾語になる。 (例:や、店)

$+$
: 単語境界

本論文ではキーワード検索を目的としたため、本データベースの単語は、通 常の形態素解析の単語より短い傾向にある。 (例: あさひ、だるま)

%
: アクセント句境界

本データベースは、合成音声で企業名を出力できるようにするため、人間がポー ズをつける単語境界をアクセント句境界とした[2]。



平成15年9月30日