言語データ

Ergodic HMMの学習に用いる言語データベースとして、ATR対話データベース(ADD)[12]を用いた。文の例を表 1 に示す。この言語データベースは電話対話であるため、「はい」「もしもし」「わかりました」「そうですか」などの短い会話文が多い。単語の定義は、日本語において曖昧な点があるが、このデータベースは人手で形態素解析がされていて品詞も付与されているため、これにしたがった。また、同じ表記でも読み方の異なる場合や、品詞や活用形や活用型の異なる場合は、別単語として扱った。その結果、異なり語彙数は6418種類、品詞は名詞、動詞などの基本形で25種類、活用形および活用型まで含めて114種類ある。

実験では、8000文を奇数番目の文のsetと偶数番目の文のsetとに分けて使用した。以後、奇数番目のsetを ``odd4000''、偶数番目の setを ``even4000''と呼ぶことにする。

**表 1:** 文の例
・はいもしもし
・えーっとそちら第１回の通訳電話国際会議の
事務局でしょうか
・はいそうです
・えーっとちょっとその会議のことでね
・はいどうぞ
・えーっと今手元にあの登録用紙があるんですけれども
・えーっとその中でちょっとあのクレジットカードをね
・あのークレジットカードの名前となんかナンバーを
書くところがあるんですが
・はいそうです
・えーっとそれをちょっとクレジットカードを持っていない
者がいるんですけれども
・その場合はどうなんでしょうか