next up previous contents
次へ: 混合HMM 上へ: HMMによる音声認識 戻る: 半連続HMMの場合   目次

連結学習

音声認識においては,通常,音響モデルとして音素のようなサブワードを単位と するモデルが用いられる.サブワードモデルを学習するためには,大量の音声デー タが必要とされる.音声データ中のサブワードの境界を人手でラベル付けするこ とはできるが,人手で行う方法では得られるデータの量はとても限られている. このため学習において連結学習という方法が用いられる.連結学習ではラベル付 けされていない大規模なデータベースを扱うことができる.しかし,各音声デー タの発話のシンボルが記述されたテキストが必要とされる.まず,各サブワード モデルを音声データの発話のシンボルが記述されたテキストを基に連結する.こ のとき,前のモデルの最終状態が次のモデルの初期状態になる.次に, Baum-Welchアルゴリズムによって,音声データから連結されたモデルのパラメー タの推定を行う.連結学習では,初期モデルが重要であり,通常は,ラベル付け された音声データを用いて初期モデルを作成する.

連結学習の例を図 4 に示す.音声データの音素表記``pau a i pau''を元にして各音素HMMを連結し,連結したHMMのパラメータを音声データか ら推定する.

図 4: 連結学習の例
\includegraphics[scale=1]{eps/renketu.eps}

本研究は,話者適応の学習に連結学習を用いる.



平成20年3月11日