次へ: 木に基づく状態共有
上へ: HMMを用いた音声認識
戻る: 半連続HMMの場合
目次
音声認識においては,通常,音響モデルとして音素のようなサブワードを単位とす
るモデルが用いられる. サブワードモデルを学習するためには, 大量の音声デー
タが必要とされる. 音声データ中のサブワードの境界を人手でラベル付けするこ
とはできるが, 人手で行う方法では得られるデータの量はとても限られている.こ
のため学習において連結学習という方法が用いられる. 連結学習ではラベル付け
されていない大規模なデータベースを扱うことができる. しかし, 各音声データ
の発話のシンボルが記述されたテキストが必要とされる. まず, 各サブワードモデ
ルを音声データの発話のシンボルが記述されたテキストを基に連結する.このと
き,前のモデルの最終状態が次のモデルの初期状態になる. 次に, Baum-Welchア
ルゴリズムによって,音 声データから連結されたモデルのパラメータの推定を行う.連結学習では,初期モデルが重要であり,通常は,ラベル付けされた音声データを用いて初期モデルを作成する.
連結学習の例を図 2 に示す.音声データの音素表記``pau a i pau''を元にして各音素HMMを連結し,連結したHMMのパラメータを音声データから推定する.
平成18年3月20日