連続音声認識アルゴリズムとしてはOne-passサーチがよく知られている。しか し、表1の実験条件では、フルサーチのほ うが僅かに高い認識性能(文認識率において約2%)が得られた。しかし、この 差は、ビーム幅や語彙数によって変化すると考えている。表 5に、このフルサーチとOne-passサーチの違いに ついてまとめた。
フルサーチ | One-passサーチ | |
計算コスト | 大きい | 小さい |
メモリ | 大きい | 小さい |
グリッドの選択方法 | Viterbi & trellis | Viteribi |
N-best list | 可能 | アルゴリズムを改良して可能 |
言語モデルとの適合性 | left-right型の全ての言語モデルが可能 | left-right型の全ての言語モデルが可能。 |
ただし近似解になる。 | ||
ビームサーチとの適合性 | 良好 | 良好 |
音素モデルにおける | 良好(ただしTrellis計算では必要としない。) | 良好 |
duration controlとの適合性 | ||
スポッタとしての動作 | 可能 | プログラムを改良すれば可能 |
なお、グリッドを中心に考えると、フルサーチにおいてグリットの選択方法を Viterbiにし、生成された単語仮説を、単語ごとに選択をすると(つまり )、One-passサーチになる。また、前後の音素環境も考慮し ながらグリッドを選択することにより triphoneのような環境依存音素モデル が扱える。また、グリッドを、言語モデルからみて過去の単語系列や構文解析 木が一致する場合のみ選択することで、ネットワーク文法や文脈依存文法など のleft-right 型の言語モデルと音響モデルを組み込むことができる。
従ってグリッドを中心に考えることにより、フルサーチとOne-passサーチ、そ して環境依存音素モデル、さらにleft-right型の言語モデルが統一できる。こ れをオブジェクトグリットと呼んでいる。