一般に人が発声した音声を計算機などで認識する過程は,図1
のように通
信理論(情報処理論)の問題として,確率モデルを用いて定式化できる.話者が文
を考える過程
が文発生部で,これを通信理論の情報源に対応させる.音声認識システムを音響
処理部と言語復号部に分ける.話者による発声部と音響処理部を合わせて,一つ
の音響チャンネルとしてモデル化し,これを歪み(雑音)のある通信路に対応させ
る.音声認識システムの主な部分である言語復号部を復号部に対応させる.話者
はまず,情報源に対応する文を頭の中で組み立て,それに基づいて,そ
の話者の発話習慣に従って音声波形を生成する.には通常,話者の個人差,
付加雑音,伝送歪みなどが重畳している.音響処理部は音声波形データの分析・
変
換を行って,例えば短時間スペクトルなどの時系列データ(ベクトル系列)を
出力する.言語復号部はから送信文の推定値としてを出力す
る.は,事後確率
が最大になるように推定す
る.
を直接求めるのは,通常困難であるので,べイズ則に
よって,次式を満たすように推定する.
(1) |
ここで,はに無関係であるので無視できる.尤度 は音響モデルによって得られ,文が発生される事前 確率P()は言語モデルによって得られる.従って音声認識では,音 響モデルと言語モデルをいかに作り, とを計算す るがが重要である.