next up previous
次へ: 実験条件 上へ: Ergodic HMMによる言語のモデル化 戻る: Ergodic HMMによる言語のモデル化

言語データ


Ergodic HMMの学習に用いる言語データベースとして、ATR対話デー タベース(ADD)[12]を用いた。文の例を表  1 に示す。この言語データベースは電話対話で あるため、「はい」「もしもし」「わかりました」「そうですか」 などの短い会話文が多い。単語の定義は、日本語において曖昧な点 があるが、このデータベースは人手で形態素解析がされていて品詞 も付与されているため、これにしたがった。また、同じ表記でも読 み方の異なる場合や、品詞や活用形や活用型の異なる場合は、別単 語として扱った。その結果、異なり語彙数は6418種類、品詞は名詞、 動詞などの基本形で25種類、活用形および活用型まで含めて114種 類ある。

実験では、8000文を奇数番目の文のsetと偶数番目の文のsetとに分 けて使用した。以後、奇数番目のsetを ``odd4000''、偶数番目の setを ``even4000''と呼ぶことにする。




表 1: 文の例
・はい もしもし
・えーっと そちら 第 1 回 の 通訳 電話 国際 会議 の
事務 局 で しょ う か
・はい そう です
・えーっと ちょっと その 会議 の こと でね
・はい どうぞ
・えーっと 今 手元 に あの 登録 用紙 が ある ん です けれども
・えーっと その 中 で ちょっと あの クレジットカード を ね
・あのー クレジットカード の 名前 と なん か ナンバー を
書く ところ が ある ん です が
・はい そう です
・えーっと それ を ちょっと クレジットカード を 持っ て い な い
者 が いる ん です けれども
・その 場合 は どう な ん でしょ う か





Jin'ichi Murakami 平成13年10月5日