連続型HMMは, ガウス分布数が固定された半連続型HMMと違い, 状態毎にガウス分 布を持つ. そして, 連続型HMMでのtriphoneはパラメータ数が多く, 信頼性 のあるパラメータの推定が困難である. そのため, HMMの似ている状態を共有し, 1状態あたりの学習データを増やす手法が存在する. 本研究において, 状態共有 には音の決定木に基づく状態共有手法[9]を用いる.
状態共有HMMシステムの構築手順を図3に示し, 手順の説明 を以下に示す.
木に基づく状態共有において, 状態のクラスタリングは音の決定木によって行う. 音の決定木の例を図4に示す. 音の決定木はバイナリツリーであり, ノード毎に質問が付随する. 図4において, ルートノードの質問 ``L-Nasal?''の意味は``文脈の左の音は鼻音であるか?''である. 全ての質問の 形式は``左/右の音は集合に属するか?''となる.
音の決定木が一旦構築されると, 全ての状態はルートノードから決定木を下り, 末端のノードに集められた状態集合が共有される. 木に基づく状態共有は, 未 知のtriphoneでも作成された音の決定木を用いることで状態を合成し作成するこ とができる.
音の決定木の構築手順を以下に示す.
本研究では, アクセント情報を用いたモデルにおいて木に基づく状態共有手法を用 いる. アクセント情報に関する質問の形式は, ``音に付属するアクセント情報が 集合に属するか?''とし, 集合が全てのパターンを網羅するように作成する . また, モーラ情報を用いたモデルにおいて, 集合が全てのモーラ情報パター ンを網羅するように作成する. そして, 木に基づく状態共有のtriphoneモデルの質 問は, HTKに付属する英語音素のための質問(HTK-samples-3.3の samples/RMHTK/lib/quests.hed)を対応する日本語音素に変換することで作成する . 英語音素と日本語音素の対応を表1に示す. また, 作成し た質問の例を2に示す.
なお, アクセントtriphoneモデルの質問はアクセントモデルとtriphoneモデルの質 問を合わせて用いる. そして, モーラtriphoneモデルの質問はモーラモデルと triphoneモデルを合わせて用いる. 前後音素のアクセント情報は考慮しない.
英語音素 | 日本語音素 | 英語音素 | 日本語音素 | 英語音素 | 日本語音素 | 英語音素 | 日本語音素 |
aa | a | ae | a | ah | a | ao | a |
aw | a | ax | a | ay | a | b | b |
ch | ch | d | d | dd | d | dh | d |
dx | d | eh | e | en | e | er | e |
ey | e | f | f | g | g | hh | h |
ih | i | iy | i | jh | j | k | k |
kd | k | l | l | m | m | n | n |
ng | N | ow | o | oy | o | p | p |
pd | p | r | r | s | s | sh | sh |
sil | pau | t | t | td | t | th | t |
ts | ts | uh | u | uw | u | v | v |
w | w | y | y | z | z |
モーラモデル | ``モーラ位置は1であるか?'' |
``モーラ位置は2,4または7であるか?'' | |
``モーラ位置は1,2,3,4,6または7であるか?'' | |
``単語のモーラ数は4であるか?'' | |
``単語のモーラ数は5または6であるか?'' | |
``単語のモーラ数は3,5,6または7であるか?'' | |
アクセントモデ | ``モーラ位置は3であるか?'' |
``モーラ位置は1,2または5であるか?'' | |
``単語のモーラ数は4,5または6であるか?'' | |
``単語のモーラ数は1,2,3,4,5または6であるか?'' | |
``単語のアクセント型は4型で, かつアクセントは高いか?'' | |
``単語のアクセント型は3または7型で, かつアクセントは低いか?'' | |
``単語のアクセント型は1,3,5または7型で, かつアクセントは高いか?'' | |
triphoneモデル | ``左音素環境は音素gまたはgyであるか?'' |
``右音素環境は音素a, e, m, oまたはrであるか?'' | |
``左音素環境は音素by,iまたはgyであるか?'' |