次へ: 音声の特徴抽出 上へ: pap 戻る: はじめに目次

音声認識

音声認識とは，音声波に含まれる意味内容に関する情報(言語情報)をコンピュータや電気回路によって抽出し，判定する処理である．一般に人が発声した音声をコンピュータなどで認識する過程は，図 1のように通信理論の問題として，確率モデルを用いて定式化できる．話者が文を考える課程が文発声部で，これを通信理論の情報源に対応させる．音声認識システムを音響処理部と言語復号部に別ける．話者による発声部と音響処理部を合わせて，一つの音響チャンネルとしてモデル化し，これを歪み(雑音)のある通信路に対応させる．音声認識システムの主な部分である言語復号部を復号部に対応させる．話者はまず，情報源に対応する文 $\omega$ を頭の中で組み立て，それに基づいて，その話者の発話習慣に従って音声波形

を生成する．

には通常，話者の個人差，負荷雑音，伝送歪みなどが重畳している．音響処理部音声波形データの分析・変換を行って，時系列データ(ベクトル系列)

を出力する．言語復号部は

から送信文の推定値として $\hat{\omega}$ を出力する． $\hat{\omega}$ は，事後確率 $P(\omega\vert y)$ が最大になるように推定する． $P(\omega\vert y)$ を直接求めるのは，通常困難であるので，べイズ則によって，式(1)を満たすように推定する．

$\displaystyle P(\hat{\omega}\vert y)=\max_\omega \frac{P(y\vert\omega)P(\omega)}{P(y)}$

(1)

ここで，

は $\omega$ に無関係であるので無視できる．尤度 $P(y\vert\omega)$ は音響モデルによって得られ，文 $\omega$ が発生される事前確率P( $\omega$ )は言語モデルによって得られる．したがって音声認識では，音響モデルと言語モデルをいかに作り， $P(y\vert\omega)$ と $P(\omega)$ を計算するかが重要となる[6]．

図: 音声認識課程の確率モデル
$\includegraphics{ninsiki.eps}$

Subsections

平成24年3月20日