遷移出力型で状態数のErgodic HMM のパラメータ
を次のように定義した。
初期状態確率 | |
状態遷移確率 | |
シンボル出力確率 |
ただしは語彙数。
本稿で提案するアルゴリズムは次の2つで構成される。
○ 1 小さいシンボル出力確率の削除
Baum-Welchアルゴリズムを使用してパラメータを推定するとき、シンボル出力 確率 が閾値より小さいとき0にして、再推定およびメモリか ら削除する。
一般的には forward probability は以下の式で計算される。
(9.6) |
この式の代わりに、本節では以下の式を使用する。
(9.7) |
これによりメモリ量および計算量が削減できる。実験では閾値を にした。なお類似したアルゴリズムが文献[37]に おいて提案されている。
○ 2 状態数の逐次増加
状態数が大きなErgodic HMMのパラメータを再学習する場合、大量のメモリが
必要になる。そこで状態数を逐次的に増加させる。状態のErgodic HMM の
パラメータが既に推定されたとして、状態の Ergodic HMMの初期状態確率
および状態遷移確率の初期パラメータを次のように計算する。
(9.8) |
(9.9) |
ここで は小数点以下切り上げを意味。
シンボル出力確率の初期パラメータは乱数を利用して次のように計算する。
(9.10) |
ただし となるように正規化する。
状態数が大きなErgodic HMMのパラメータは以下のフローを繰り返すことで学習できる。