next up previous contents
次へ: 木に基づく状態共有 上へ: HMMを用いた音声認識 戻る: 半連続HMMの場合   目次

連結学習

音声認識においては,通常,音響モデルとして音素のようなサブワードを単位とす るモデルが用いられる. サブワードモデルを学習するためには, 大量の音声デー タが必要とされる. 音声データ中のサブワードの境界を人手でラベル付けするこ とはできるが, 人手で行う方法では得られるデータの量はとても限られている.こ のため学習において連結学習という方法が用いられる. 連結学習ではラベル付け されていない大規模なデータベースを扱うことができる. しかし, 各音声データ の発話のシンボルが記述されたテキストが必要とされる. まず, 各サブワードモデ ルを音声データの発話のシンボルが記述されたテキストを基に連結する.このと き,前のモデルの最終状態が次のモデルの初期状態になる. 次に, Baum-Welchア ルゴリズムによって,音 声データから連結されたモデルのパラメータの推定を行う.連結学習では,初期モデルが重要であり,通常は,ラベル付けされた音声データを用いて初期モデルを作成する.

連結学習の例を図 2 に示す.音声データの音素表記``pau a i pau''を元にして各音素HMMを連結し,連結したHMMのパラメータを音声データから推定する.

図 2: 連結学習の例
\resizebox{10cm}{!}{\includegraphics{HERest.eps}}



平成18年3月20日