next up previous
次へ: 音響尤度と言語の連鎖確率の結合値 上へ: 考察 戻る: 考察

フルサーチとOne-passサーチの比較

連続音声認識アルゴリズムとしてはOne-passサーチがよく知られている。しか し、表1の実験条件では、フルサーチのほ うが僅かに高い認識性能(文認識率において約2%)が得られた。しかし、この 差は、ビーム幅や語彙数によって変化すると考えている。表 5に、このフルサーチとOne-passサーチの違いに ついてまとめた。


表 5: フルサーチとOne Pass サーチの比較
  フルサーチ  One-passサーチ
計算コスト    大きい 小さい
メモリ 大きい 小さい
グリッドの選択方法  Viterbi & trellis Viteribi
N-best list 可能  アルゴリズムを改良して可能
言語モデルとの適合性 left-right型の全ての言語モデルが可能 left-right型の全ての言語モデルが可能。
              ただし近似解になる。
ビームサーチとの適合性  良好   良好
音素モデルにおける  良好(ただしTrellis計算では必要としない。)  良好
duration controlとの適合性     
スポッタとしての動作  可能  プログラムを改良すれば可能

なお、グリッドを中心に考えると、フルサーチにおいてグリットの選択方法を Viterbiにし、生成された単語仮説を、単語ごとに選択をすると(つまり $local beam = 1$)、One-passサーチになる。また、前後の音素環境も考慮し ながらグリッドを選択することにより triphoneのような環境依存音素モデル が扱える。また、グリッドを、言語モデルからみて過去の単語系列や構文解析 木が一致する場合のみ選択することで、ネットワーク文法や文脈依存文法など のleft-right 型の言語モデルと音響モデルを組み込むことができる。

従ってグリッドを中心に考えることにより、フルサーチとOne-passサーチ、そ して環境依存音素モデル、さらにleft-right型の言語モデルが統一できる。こ れをオブジェクトグリットと呼んでいる。



Jin'ichi Murakami 平成13年10月2日