連結学習

次へ: クロストーク音声における従来の研究 上へ: HMMによる音声認識 戻る: 半連続HMMの場合目次

連結学習

音声認識においては，通常，音響モデルとして音素のようなサブワードを単位とするモデルが用いられる．サブワードモデルを学習するためには，大量の音声データを用いる必要があるが，その音声データに，逐一，人手によるラベル付けを行うことは非常に困難である．そこでラベル付けされていない音声データベースを用いて学習を行う方法が連結学習である．ただし，各音声データの発話のシンボルが記述されたテキストが必要とされる．

まず，各サブワードモデルを音声データの発話のシンボルが記述されたテキストを基に連結する．このとき，前のモデルの最終状態が次のモデルの初期状態になる．次に,Baum-Welchアルゴリズムによって，音声データから連結されたモデルのパラメータの推定を行う．

連結学習では，初期モデルが重要であり，通常は,ラベル付けされた音声データを用いて初期モデルを作成する．連結学習の例を図 4 に示す．音声データの音素表記``pau a i pau''を元にして各音素HMMを連結し，連結したHMMのパラメータを音声データから推定する．

**図 4:** 連結学習の例
$\includegraphics[scale=0.7]{HERest.eps}$

平成19年5月7日