next up previous contents
次へ: まとめ 上へ: tree-trellisサーチと単語のtrigramモデルを用いた文音声認識 戻る: 単語のtrigramの値を平滑化した場合の認識率   目次

考察

  1. ポーズのHMMの学習に関して

    本実験では、ポーズのHMMは Baum-Welchアルゴリズムを用いて再学習をおこ なった。しかし、データ量が少ない場合のことを考えると、混合分布の平均 値を移動させる話者適応化技術[64]が好まし いと考えている。

  2. ポーズ処理

    今回の実験から、誤認識の原因になっている音声に含まれるポー ズの対策として、言語モデルではポーズのスキップ、音響モデル ではポーズのHMMを学習することで文認識性能が向上することが 示された。今後、ポーズは促音やクロージャとも併せて考慮する 必要があろう。

  3. ビーム幅

    ビーム幅は語彙数と正の相関を持つと考えられる。しかし実験で はビーム幅が1024を越えると、認識性能はあまり向上しないこと が示された。認識語彙数を変化させた実験を行っていないため明 確ではないが、このビーム幅1024は語彙数1567に近いことから、 ビーム幅は語彙数程度で十分であると思われる。ただし、ここで 実験に用いた話者はナレータであるため、音声は非常に丁寧に に発話されている。したがって、通常の話者の音声ではこのビー ム幅では不足する可能性もある。

  4. 音響尤度と言語の連鎖確率の結合値

    音響尤度と言語の連鎖確率の結合値を変化させた時の文認識率の 変化を調査した実験から$\alpha $ が 16のとき最も高い文認識性 能が得られた。

    しかし、単語のHMMと単語のbigramを考えて、これらを組み合わせたモデルは Ergodic HMM に似たモデルになる。そして単語のbigram の値は1つの単語のHMM の最終状態の遷移確率を別の単語に接続されたときの値の分配率になる(図 4.14)。 この時の音響尤度と言語の連鎖確率の結合値 $\alpha $は1になる。この値は trigramでも同様であると考えられる。した がって理論的には音響尤度と言語の連鎖確率の結合値 $\alpha $ は1である と考えている。

    ただし、連続型HMMでは遷移確率は離散値であるのに対しシンボル出力確率は 確率密度関数であるためダイナミックレンジが大きく異なる。そのため、$\alpha $ は1より大きい方が好ましいと思われる。

    図 4.14: bigramとHMMを組み合わせたErgodic HMM
    \begin{figure}\begin{center}
\fbox{\epsfile{file=FIGURE/ErgodicHMM.ps,width=100mm}}\end{center}\end{figure}



Jin'ichi Murakami 平成13年1月5日