next up previous
次へ: フレーム同期型フルサーチアルゴリズム 上へ: main2 戻る: main2

まえがき

従来の多くの音声認識システムは、丁寧に発声された音声を入力対象にしてい る。しかし、人間同士のコミュニケーションでは、「あのー」「えーと」など に代表される間投詞や、言い淀みや言い誤りおよび言い直しなどが頻繁に出現 する。このような音声でも認識できる、いわゆる自由発話の音声認識が、今後 の重要な研究課題になると思われる。しかし、このような発話様式において認 識精度の高い音響モデルを作成することは困難であると考えられる。そこで perplexityの低い言語モデルに着目した。

現在、多くのシステムでは簡潔さ・有効などの点から単語のbigramモデルが音 声認識のための言語モデルとして使用されている[1]。しかし一般的に 単語のtrigramモデルはbigramと比較すると低いperplexityを持つことが知ら れている[2]。そこで基本的な言語モデルとして、単語の trigramを利用した。また、自由発話では対話文の50%に「あのー」、「えー と」などの間投詞を含む。また言い直しは約10%に出現する[3]。これらの間投詞や言い直しは、文の全ての場所に出現する可能性がある。 そこでgarbage modelや音素モデルによって、これらの言語現象をスキップす ることで間投詞や、言い淀みや言い誤りおよび言い直しなどを含む発話の認識 が可能になる。

この論文では、初めに連続音声認識アルゴリズムとしてフレーム同期型のフル サーチアルゴリズム(全探索)について述べる。連続音声認識のアルゴリズム にはOne-Pass DPやlevel Bulidingや2段DP法などが知られている。しかし、 本論文では各フレームごとに単語の全ての組み合わせを探索するフレーム同期 型のフルサーチ(全探索)を採用した。フルサーチアルゴリズムはグリッドを trellisで計算できることや、N-bestリストが計算できるなどの長所を持つ。 しかし大量の計算時間とメモリー量が必要になるという短所も持つ。そこで、 計算時間とメモリー量を削減するためにアルゴリズムを改良した。これらは、 ビームサーチの採用とその改良に依存している。次に自由発話の認識のために アルゴリズムを改良した。基本的な言語モデルとして、単語のtrigramを利用 した。また間投詞や言い直しはgarbage modelや音素モデルによってスキップ することで自由発話の認識ができるようにした。最後に、このアルゴリズムを 用いた自由発話の認識実験結果について報告する。



Jin'ichi Murakami 平成13年10月2日