音声認識の構成

次へ: 音声認識の分類 上へ: 音声認識 戻る: 音声認識目次

音声認識の構成

一般に人が発声した音声を計算機などで認識する過程は，図1 のように通信理論(情報処理論)の問題として，確率モデルを用いて定式化できる．話者が文を考える過程が文発生部で，これを通信理論の情報源に対応させる．音声認識システムを音響処理部と言語復号部に分ける．話者による発声部と音響処理部を合わせて，一つの音響チャンネルとしてモデル化し，これを歪み(雑音)のある通信路に対応させる．音声認識システムの主な部分である言語復号部を復号部に対応させる．話者はまず，情報源に対応する文 $\omega$ を頭の中で組み立て，それに基づいて，その話者の発話習慣に従って音声波形を生成する．には通常，話者の個人差，付加雑音，伝送歪みなどが重畳している．音響処理部は音声波形データの分析・変換を行って，例えば短時間スペクトルなどの時系列データ(ベクトル系列)を出力する．言語復号部はから送信文の推定値として $\hat{\omega}$ を出力する． $\hat{\omega}$ は，事後確率 $P(\omega\vert y)$ が最大になるように推定する． $P(\omega\vert y)$ を直接求めるのは，通常困難であるので，べイズ則によって，次式を満たすように推定する．

$\displaystyle P(\hat{\omega}\vert y)=\max_\omega \frac{p(y\vert\omega)P(\omega)}{P(y)}$

(1)

ここで，は $\omega$ に無関係であるので無視できる．尤度 $P(y\vert\omega)$ は音響モデルによって得られ，文 $\omega$ が発生される事前確率P( $\omega$ )は言語モデルによって得られる．従って音声認識では，音響モデルと言語モデルをいかに作り， $P(y\vert\omega)$ と $P(\omega)$ を計算するがが重要である．

**図 1:** 音声認識過程の確率モデル
$\includegraphics[width=120mm]{ninsiki.eps}$

平成25年10月13日