あらまし
人間同士のコミュニケーションでは、「あのー」「えーと」などに代表される 間投詞や、言い淀みや言い誤りおよび言い直しなどが頻繁に出現する。このよ うな音声でも認識できる、いわゆる自由発話の音声認識が、今後の重要な研究 課題になると思われる。しかし、間投詞や言い直しは、文の全ての場所に出現 する可能性がある。また、自由発話様式において認識精度の高い音響モデルを 作成することは困難であると考えられる。そこで本論文ではperplexityの低い 言語モデルに着目した。そして単語のtrigramモデルを基本の言語モデルとし て、間投詞や言い直しをgarbage modelや音素モデルでスキップすることで自 由発話の認識を試みた。
この論文では、初めにフレーム同期型のフルサーチアルゴリズム(全探索)を 用いた連続音声認識システムについて述べる。次に計算量およびメモリ量を削 減するための改良点について述べる。次に自由発話の認識のためのアルゴリズ ムの改良点を述べる。最後に、このアルゴリズムを用いた自由発話の認識実験 結果について述べる。
キーワード 自由発話認識 全探索 ビームサーチ 時間同期 ガーベージモデル 単語 trigram model
abstract
This paper describes an spontanous speech recognition algorithm based on word trigram models.
This recognition algorithm greatly reduces the memory requirements and computational costs by employing beam search. With these methods, we can perform execution in a 15M byte space for about a 500-word vocabulary. Next, focusing on spontaneous speech recognition, we look at a skip phone procedure to handle the many filled pauses and false starts in spontaneous speech. Even though the proposed method employs a simple procedure, we obtain a 47.7% sentence recognition rate for spontaneous speech. Including the semantically correct sentences, the sentence recognition rate is about 75%.
key words Spontaneous Speech Recognition Full Search Beam Search Frame Synchronous Garbage Model Word trigram Model