木に基づく状態共有

次へ: アクセントとモーラ情報 上へ: HMMを用いた音声認識 戻る: 連結学習目次

木に基づく状態共有

連続型HMMは, ガウス分布数が固定された半連続型HMMと違い, 状態毎にガウス分布を持つ. そして, 連続型HMMでのtriphoneはパラメータ数が多く, 信頼性のあるパラメータの推定が困難である. そのため, HMMの似ている状態を共有し, 1状態あたりの学習データを増やす手法が存在する. 本研究において, 状態共有には音の決定木に基づく状態共有手法[9]を用いる.

状態共有HMMシステムの構築手順を図3に示し, 手順の説明を以下に示す.

単一ガウス分布のモノフォンHMMを作成する.
triphoneHMMをモノフォンHMMからコピーし学習することで作成する.
状態のクラスタリングを行い, クラスタ化された状態集合を共有する.
HMMの出力確率を混合ガウス分布数にし, パラメータを学習する.

**図 3:** 状態共有HMMシステムの構築手順
$\includegraphics[width=1.0\columnwidth]{hmm.eps}$

木に基づく状態共有において, 状態のクラスタリングは音の決定木によって行う. 音の決定木の例を図4に示す. 音の決定木はバイナリツリーであり, ノード毎に質問が付随する. 図4において, ルートノードの質問 ``L-Nasal?''の意味は``文脈の左の音は鼻音であるか?''である. 全ての質問の形式は``左/右の音は集合に属するか?''となる.

音の決定木が一旦構築されると, 全ての状態はルートノードから決定木を下り, 末端のノードに集められた状態集合が共有される. 木に基づく状態共有は, 未知のtriphoneでも作成された音の決定木を用いることで状態を合成し作成することができる.

**図 4:** 音の決定木の例
$\includegraphics[width=1.0\columnwidth]{tree.eps}$

音の決定木の構築手順を以下に示す.

ルートノードに全ての状態をおく.
log尤度が最大になるように親ノードの状態を分割する質問を見付け, 状態を2つに分ける.
全ての状態を共有したときのlog尤度と, 状態を分割したときのlog尤度のを比べる. log尤度の増加が閾値を下回れば決定木の構築を終わり, 下回らなければ状態の分割を繰り返す.

本研究では, アクセント情報を用いたモデルにおいて木に基づく状態共有手法を用いる. アクセント情報に関する質問の形式は, ``音に付属するアクセント情報が集合に属するか?''とし, 集合が全てのパターンを網羅するように作成する . また, モーラ情報を用いたモデルにおいて, 集合が全てのモーラ情報パターンを網羅するように作成する. そして, 木に基づく状態共有のtriphoneモデルの質問は, HTKに付属する英語音素のための質問(HTK-samples-3.3の samples/RMHTK/lib/quests.hed)を対応する日本語音素に変換することで作成する . 英語音素と日本語音素の対応を表1に示す. また, 作成した質問の例を2に示す.

なお, アクセントtriphoneモデルの質問はアクセントモデルとtriphoneモデルの質問を合わせて用いる. そして, モーラtriphoneモデルの質問はモーラモデルと triphoneモデルを合わせて用いる. 前後音素のアクセント情報は考慮しない.

**表 1:** 英語音素と日本語音素の対応表
英語音素	日本語音素	英語音素	日本語音素	英語音素	日本語音素	英語音素	日本語音素
aa	a	ae	a	ah	a	ao	a
aw	a	ax	a	ay	a	b	b
ch	ch	d	d	dd	d	dh	d
dx	d	eh	e	en	e	er	e
ey	e	f	f	g	g	hh	h
ih	i	iy	i	jh	j	k	k
kd	k	l	l	m	m	n	n
ng	N	ow	o	oy	o	p	p
pd	p	r	r	s	s	sh	sh
sil	pau	t	t	td	t	th	t
ts	ts	uh	u	uw	u	v	v
w	w	y	y	z	z

**表 2:** 質問の例
モーラモデル	``モーラ位置は1であるか?''
	``モーラ位置は2,4または7であるか?''
	``モーラ位置は1,2,3,4,6または7であるか?''
	``単語のモーラ数は4であるか?''
	``単語のモーラ数は5または6であるか?''
	``単語のモーラ数は3,5,6または7であるか?''
アクセントモデ	``モーラ位置は3であるか?''
	``モーラ位置は1,2または5であるか?''
	``単語のモーラ数は4,5または6であるか?''
	``単語のモーラ数は1,2,3,4,5または6であるか?''
	``単語のアクセント型は4型で, かつアクセントは高いか?''
	``単語のアクセント型は3または7型で, かつアクセントは低いか?''
	``単語のアクセント型は1,3,5または7型で, かつアクセントは高いか?''
triphoneモデル	``左音素環境は音素gまたはgyであるか?''
	``右音素環境は音素a, e, m, oまたはrであるか?''
	``左音素環境は音素by,iまたはgyであるか?''

次へ: アクセントとモーラ情報 上へ: HMMを用いた音声認識 戻る: 連結学習目次

平成18年3月20日