次へ: 混合HMM
上へ: HMMによる音声認識
戻る: 半連続HMMの場合
目次
音声認識においては,通常,音響モデルとして音素のようなサブワードを単位と
するモデルが用いられる.サブワードモデルを学習するためには,大量の音声デー
タが必要とされる.音声データ中のサブワードの境界を人手でラベル付けするこ
とはできるが,人手で行う方法では得られるデータの量はとても限られている.
このため学習において連結学習という方法が用いられる.連結学習ではラベル付
けされていない大規模なデータベースを扱うことができる.しかし,各音声デー
タの発話のシンボルが記述されたテキストが必要とされる.まず,各サブワード
モデルを音声データの発話のシンボルが記述されたテキストを基に連結する.こ
のとき,前のモデルの最終状態が次のモデルの初期状態になる.次に,
Baum-Welchアルゴリズムによって,音声データから連結されたモデルのパラメー
タの推定を行う.連結学習では,初期モデルが重要であり,通常は,ラベル付け
された音声データを用いて初期モデルを作成する.
連結学習の例を図 4 に示す.音声データの音素表記``pau a i
pau''を元にして各音素HMMを連結し,連結したHMMのパラメータを音声データか
ら推定する.
本研究は,話者適応の学習に連結学習を用いる.
平成20年3月11日