次へ: 提案手法の認識傾向
上へ: 考察
戻る: 考察
目次
認識実験において,状態数混合分布数を増やすことにより認識率がよくなっていることから,認識はできていると考える.
次に,提案手法の精度が低かった原因を3点考えている.
- (1)
- 混合分布の加算において,仮定の間違い
本研究では,「スペクトル領域で男性の音声と女性の音声は加算の関係である」という仮定のもと,スペクトル領域で混合分布の加算を行ったが,
実際は,男性の音声と女性の音声はスペクトル領域で加算の関係ではなく,乗算の関係の可能性がある.その可能性を探るために,特徴パラメータをかえ,PMC法の調査を行う必要がある.
- (2)
- 3次元ビタビ探索を用いた手法の精度の調査不足
本研究では,男女2話者のHMMのモデルをBNF記法により作成し,HTKに組み込み認識を行ったが,さまざまな条件の加算したHMMにより認識精度を求めた結果,特徴パラメータMFCCにおける提案手法の21%が最高である.HMMの加算を行う上で,男女が公平であるため,妥当性のあるモデルだと考えており,今後の研究を考え,高い精度を得られるように改良する必要がある.モデルを考えると,付録4,5,6に示される単語モデルの認識結果より,最適経路がわかることから,パスはつながっているといえる.今後は同じモデルを用い,HMMの条件をかえて認識率の調査を行う.また,原理上問題があるが,出力音声に対し,3次元ビタビ探索を用いて,男女のHMMを評価し出現確率が高い話者のHMMを選択し,計算する手法の調査を行う予定である.
- (3)
- HMMの状態数3において,男女2話者が同時に遷移する場合しか考慮していない
本研究では,1状態同士,2状態同士のように加算しているが,本来は男性HMMの1状態目と女性HMMの2状態目のように状態のずれを考慮する必要がある.
例を示し説明するために,図20に状態数3の音素を加算する際に考えられるパスを示す.男性話者の音素を「n」とし,女性話者の音素を「k」とし,交差された状態をcとする.図のn_1は,男性音素「n」の1状態目を指す.c1は,男性音素「n」の1状態目と女性音素「k」の1状態目が交差した状態を指す.
本研究のHMMの加算は,男女2話者のHMMの同じ状態でしか加算を行っていない.図で示すと,状態c1と状態c5と状態c9しか使われておらず,混合分布の加算は3つとなっている.本来は,状態c1からc9まで考慮する必要があるため,混合分布の加算は,1音素の加算で9つ必要になる.
状態遷移確率は,両方自己ループ,片方自己ループし片方遷移,両方遷移の3つの場合があるため,男女のHMMの状態遷移確率の積をする必要がある.一方で,状態数1混合分布数1の場合では,状態c1しか使われないので,混合分布の加算は1つのみとなる.そのため,本研究における3state 4mixtureの精度が1state 1mixtureの精度と差がなかったと考えている.今後は,1音素の加算において9つの状態の加算を行う予定であるが,音声認識ツールHTKでは,3状態の音素を表現するために,音素を分けて定義する必要がある.しかし,本研究では,単語の音素数8同士の加算の場合で,セグメンテーションエラーが起きたために単語変更したことから,音素数の少ない単語同士の加算から行う予定である.
図:
HMMのパスの考えられるパスの遷移(3state)
|
平成24年3月20日