前節で作成した対話データset odd1000, odd2000, odd4000 をErgodic HMMの 学習データとして使用して、HMMの状態数を変えて、 Ergodic HMMを用いた確率つきネットワーク文法の自動獲得の実験 を行なった。
なお、実験に用いた Ergodic HMMは 任意の状態から状態遷移を開始し、任意の状態で終了できるモデルで ある。学習を始める際のモデルのパラメータの初期値を以下に 示す。
(9.5) |
ただし、
,
,
,
: 状態数, : 語彙数(単語の種類)
また、モデルがシンボル系列を生
成する確率の上昇率
実験は、状態数の異なる4種類のErgodic HMM(2状態、4状態、8状態、 16状態)の場合について行なった。学習データはodd1000, odd2000, odd4000を用いた(16状態はodd4000のみ)。また、初期パラメータを 変えた場合のモデル化の変化を研究するため、初期状態の異なる8種 の8状態のErgodic HMMについて、再推定回数20回を学習終了条件と してodd4000を学習させた。その他の実験の条件を表 9.10 に示す。
HMMの構造 | 状態遷移出力型Ergodic HMM |
HMMの状態数 | 2状態,4状態,8状態,16状態 |
HMMの出力シンボル | 単語 |
開始終了状態 | 任意 |
初期状態遷移確率 | ランダム |
初期シンボル出力確率 | ランダム |
初期状態確率 | 均等 |
語彙数 | 6418 |
学習データ set | odd4000,odd2000,odd1000 |
学習データ数 | 4000文,2000文,1000文 |
単語総数 | 57354単語,20730単語,13299単語 |
学習終了条件 | 尤度上昇率1%未満 |