next up previous contents
次へ: まとめ 上へ: 単語のHMMとbigramを利用した文節音声認識 戻る: 実験結果   目次

考察

  1. HMMの種類について

    本実験では、HMMの学習に使用する音声データを1つとしたためFuzzy-VQ HMMを使用した。しかし不特定話者認識のためには連続分布型HMM(2.1.9節参照)の ほうが相応しいと考えられる。しかし、連続分布型 HMMを使用した場 合、mixture数にも依存するが学習に大量の音声データが必要である。そこで、 単語を認識単位とするばあいは、学習データがある程度少なくてすむ semi-continuous HMM[4]が有望ではないかと考えている。

  2. 認識単位・単語

    認識単位として音素を選択したとき、HMMの学習のために、音素ラベルが付与 された音声データが必要になる。ラベリング作業は自動化がある程度可能であ るが、最終的には人手に頼らざるを得ないため、音声データベースの作成のコ ストはかなり高い。一方認識単位を単語にしたばあい、ラベリング作業は不用 になる。そのかわり、数個の単語発声が必要があるため、発話者の負荷が大き くなる。認識システムの仕様や目的にも依存するが、連結学習も考慮にいれて、 認識単位を考えるべきであろう。

  3. リアルタイムにむけて

    音声認識のリアルタイム化には2つの方法がある。1つにはアルゴリズムによ る計算量の削減であり、もう1つはハードウエアによる計算コストの分散化で ある。フレーム同期型の認識アルゴリズムにおいて計算量を削減する方法とし てビームサーチが知られている[68]。しかし、超並列コンピュータな どを考えた場合、ビームサーチを採用しないほうが早くなる可能性がある。今 後、リアルタイム化はハードウエアも考慮して最適なアルゴリズムを考えてい く必要があると思われる。



Jin'ichi Murakami 平成13年1月5日