Ergodic HMMの学習に用いる言語データベースとして、ATR対話デー タベース(ADD)[12]を用いた。文の例を表 1 に示す。この言語データベースは電話対話で あるため、「はい」「もしもし」「わかりました」「そうですか」 などの短い会話文が多い。単語の定義は、日本語において曖昧な点 があるが、このデータベースは人手で形態素解析がされていて品詞 も付与されているため、これにしたがった。また、同じ表記でも読 み方の異なる場合や、品詞や活用形や活用型の異なる場合は、別単 語として扱った。その結果、異なり語彙数は6418種類、品詞は名詞、 動詞などの基本形で25種類、活用形および活用型まで含めて114種 類ある。
実験では、8000文を奇数番目の文のsetと偶数番目の文のsetとに分 けて使用した。以後、奇数番目のsetを ``odd4000''、偶数番目の setを ``even4000''と呼ぶことにする。
・はい もしもし |
・えーっと そちら 第 1 回 の 通訳 電話 国際 会議 の |
事務 局 で しょ う か |
・はい そう です |
・えーっと ちょっと その 会議 の こと でね |
・はい どうぞ |
・えーっと 今 手元 に あの 登録 用紙 が ある ん です けれども |
・えーっと その 中 で ちょっと あの クレジットカード を ね |
・あのー クレジットカード の 名前 と なん か ナンバー を |
書く ところ が ある ん です が |
・はい そう です |
・えーっと それ を ちょっと クレジットカード を 持っ て い な い |
者 が いる ん です けれども |
・その 場合 は どう な ん でしょ う か |