next up previous contents
次へ: クロストーク音声認識 上へ: 音声認識 戻る: 半連続HMMの場合   目次

HMMの連結学習

音声認識においては,通常,音響モデルとして音素のようなサブワードを単位とす るモデルが用いられる. サブワードモデルを学習するためには,大量の音声データを用いる必要があるが, その音声データに,逐一,人手によるラベル付けを行うことは非常に困難である.そこでラ ベル付けされていない音声データベースを用いて学習を行う方法が連結学習であ る.ただし,各音声データの発話のシンボルが記述されたテキストが必要とされる.

まず,各サブワードモデルを音声データの発話のシンボルが記述されたテキスト を基に連結する. このとき,前のモデルの最終状態が次のモデルの初期状態になる. 次に,Baum-Welchアルゴリズムによって,音声データから連結されたモデルのパラ メータの推定を行う.

連結学習では,初期モデルが重要であり,通常は,ラベル付けされた音声データを用いて初期モデルを作成する. 連結学習の例を図 6 に示す.音声データの音素表記``pau a i pau''を元にして各音素HMMを連結し, 連結したHMMのパラメータを音声データから推定する.

図: 連結学習の例
\includegraphics[scale=0.7]{HERest.eps}



平成24年3月20日