遷移出力型で状態数
のErgodic HMM のパラメータ
を次のように定義した。
|
|
初期状態確率 |
|
|
状態遷移確率 |
|
|
シンボル出力確率 |
ただし
は語彙数。
本稿で提案するアルゴリズムは次の2つで構成される。
○ 1 小さいシンボル出力確率の削除
Baum-Welchアルゴリズムを使用してパラメータを推定するとき、シンボル出力
確率
が閾値より小さいとき0にして、再推定およびメモリか
ら削除する。
一般的には forward probability
は以下の式で計算される。
| (9.6) |
この式の代わりに、本節では以下の式を使用する。
![]() |
(9.7) |
これによりメモリ量および計算量が削減できる。実験では閾値
を
にした。なお類似したアルゴリズムが文献[37]に
おいて提案されている。
○ 2 状態数の逐次増加
状態数が大きなErgodic HMMのパラメータを再学習する場合、大量のメモリが
必要になる。そこで状態数を逐次的に増加させる。
状態のErgodic HMM の
パラメータが既に推定されたとして、
状態の Ergodic HMMの初期状態確率
および状態遷移確率の初期パラメータを次のように計算する。
| (9.8) |
| (9.9) |
ここで
は小数点以下切り上げを意味。
シンボル出力確率の初期パラメータは乱数を利用して次のように計算する。
| (9.10) |
ただし
となるように正規化する。
状態数が大きなErgodic HMMのパラメータは以下のフローを繰り返すことで学習できる。