連結学習

次へ: アクセントとモーラ情報 上へ: HMMを用いた音声認識 戻る: 半連続HMMの場合目次

連結学習

音声認識においては,通常,音響モデルとして音素のようなサブワードを単位とするモデルが用いられる.サブワードモデルを学習するためには,大量の音声データが必要とされる.音声データ中のサブワードの境界を人手でラベル付けすることはできるが,人手で行う方法では得られるデータの量はとても限られている.このため学習において連結学習という方法が用いられる.連結学習ではラベル付けされていない大規模なデータベースを扱うことができる.しかし,各音声データの発話のシンボルが記述されたテキストが必要とされる.まず,各サブワードモデルを音声データの発話のシンボルが記述されたテキストを基に連結する.このとき,前のモデルの最終状態が次のモデルの初期状態になる.次に,Baum-Welchアルゴリズムによって,音声データから連結されたモデルのパラメータの推定を行う.連結学習では,初期モデルが重要であり,通常は,ラベル付けされた音声データを用いて初期モデルを作成する.

連結学習の例を図 2 に示す.音声データの音素表記``pau a i pau''を元にして各音素HMMを連結し,連結したHMMのパラメータを音声データから推定する.

**図 2:** 連結学習の例
$\resizebox{10cm}{!}{\includegraphics{HERest.eps}}$

平成16年4月17日