HMMの学習に用いる言語データベースとして、ADD(ATR対話データベース) の中から``国際会議に関する問い合わせ''の8000文を用いた。文の例を 表 9.4 に示す。
表 9.4 のように、このデータベースはあらかじめ単語(形態 素)に区切られており、同じ表記でも読み方の異なる場合や、品詞、活用形、 活用型の異なる場合は、別単語として扱っている(表 9.5 参照)。また、日本語において、単語の概念はあ いまいであるが、単語の単位はデータベースの形態素解析[10]に依 存した。
はい もしもし |
えーっと そちら 第 1 回 の 通訳 電話 国際 会議 の 事務 局 で しょ う か |
はい そう です |
えーっと ちょっと その 会議 の こと でね |
はい どうぞ |
えーっと 今 手元 に あの 登録 用紙 が ある ん です けれども |
えーっと その 中 で ちょっと あの クレジットカード を ね |
あのー クレジットカード の 名前 と なん か ナンバー を 書く ところ が ある ん です が |
はい そう です |
えーっと それ を ちょっと クレジットカード を 持っ て い な い 者 が いる ん です けれども |
その 場合 は どう な ん でしょ う か |
実験に使用したデータベース中の単語の種類は全部で6418種類である。品 詞は25種類に分類され、活用を持つものは、さらに活用形および活用型の 違いで分類している。これらを表 9.6 および表 9.7 および表 9.8 に示す。
また、これらの単語には数字のラベルが付いており、このデータでは0から 6417までの数字が付けられている。
実験では、データベースの8000文を奇数番目の文のsetと偶数番目の文のsetと に分け、さらにそれぞれ先頭から1000文のset、先頭から2000文のset、4000文 のsetに分けている。奇数番目のset3種類をそれぞれ odd1000, odd2000, odd4000、偶数番目のsetをeven1000, even2000, even4000と名づけ使用した。 それぞれのデータ(set)における品詞の出現頻度などは、表 9.9 および付録の 表 A.1 〜表 A.8 に示す。
これらの表から、以下のことが示される。
これらの特徴は、電話対話という特殊な環境を反映した言語データを意味して いると考えている。
set | odd1000 | odd2000 | odd4000 | even1000 | even2000 | even40000 |
文数 | 1000 | 2000 | 4000 | 1000 | 2000 | 4000 |
単語数 | 13299 | 20730 | 57354 | 13824 | 21114 | 56826 |
文平均単語数 | 13.30 | 10.37 | 14.34 | 13.82 | 10.56 | 14.21 |
最大単語数 | 99 | 99 | 128 | 81 | 81 | 118 |