音声認識の構成

次へ: 音声認識の分類 上へ: 音声認識の原理 戻る: 音声認識の原理目次

音声認識の構成

一般に人が発声した音声をコンピュータなどで認識する課程は，図 1のように通信理論の問題として，確率モデルを用いて定式化できる．話者が文を考える課程が文発声部で，これを通信理論の情報源に対応させる．音声認識システムを音響処理部と言語復号部に別ける．話者による発声部と音響処理部を合わせて，一つの音響チャンネルとしてモデル化し，これを歪み(雑音)のある通信路に対応させる．音声認識システムの主な部分である言語復号部を復号部に対応させる．話者はまず，情報源に対応する文 $\omega$ を頭の中で組み立て，それに基づいて，その話者の発話習慣に従って音声波形

を生成する．

には通常，話者の個人差，負荷雑音，伝送歪みなどが重畳している．音響処理部音声波形データの分析・変換を行って，例えば短時間スペクトルなどの時系列データ(ベクトル系列)

を出力する．言語復号部は

から送信文の推定値として $\hat{\omega}$ を出力する． $\hat{\omega}$ は，事後確率 $P(\omega\vert y)$ が最大になるように推定する． $P(\omega\vert y)$ を直接求めるのは，通常困難であるので，べイズ則によって，次式を満たすように推定する．

$\displaystyle P(\hat{\omega}\vert y)=\max_\omega \frac{p(y\vert\omega)P(\omega)}{P(y)}$

(1)

ここで，

は $\omega$ に無関係であるので無視できる．尤度 $P(y\vert\omega)$ は音響モデルによって得られ，文 $\omega$ が発生される事前確率P( $\omega$ )は言語モデルによって得られる．したがって音声認識では，音響モデルと言語モデルをいかに作り， $P(y\vert\omega)$ と $P(\omega)$ を計算するが重要となる．

**図 1:** 音声認識課程の確率モデル
$\includegraphics{eps/ninsiki.eps}$

平成20年3月11日