次へ: クロストーク音声における従来の研究
上へ: HMMによる音声認識
戻る: 半連続HMMの場合
目次
音声認識においては,通常,音響モデルとして音素のようなサブワードを単位とす
るモデルが用いられる.
サブワードモデルを学習するためには,大量の音声データを用いる必要があるが,
その音声データに,逐一,人手によるラベル付けを行うことは非常に困難である.そこでラ
ベル付けされていない音声データベースを用いて学習を行う方法が連結学習であ
る.ただし,各音声データの発話のシンボルが記述されたテキストが必要とされる.
まず,各サブワードモデルを音声データの発話のシンボルが記述されたテキスト
を基に連結する.
このとき,前のモデルの最終状態が次のモデルの初期状態になる.
次に,Baum-Welchアルゴリズムによって,音声データから連結されたモデルのパラ
メータの推定を行う.
連結学習では,初期モデルが重要であり,通常は,ラベル付けされた音声データを用いて初期モデルを作成する.
連結学習の例を図 4 に示す.音声データの音素表記``pau a i
pau''を元にして各音素HMMを連結し,
連結したHMMのパラメータを音声データから推定する.
平成19年5月7日