next up previous contents
次へ: 音声認識の分類 上へ: 音声認識の原理 戻る: 音声認識の原理   目次

音声認識の構成

一般に人が発声した音声をコンピュータなどで認識する課程は,図 13のように通 信理論の問題として,確率モデルを用いて定式化でき る.話者が文を考える課程が文発声部で,これを通信理論の情報源に対応させる. 音声認識システムを音響処理部と言語復号部に別ける.話者による発声部と音響 処理部を合わせて,一つの音響チャンネルとしてモデル化し,これを歪み(雑音) のある通信路に対応させる.音声認識システムの主な部分である言語復号部を復 号部に対応させる.話者はまず,情報源に対応する文$ \omega$ を頭の中で組み立 て,それに基づいて,その話者の発話習慣に従って音声波形$ s$ を生成する.$ s$ には通常,話者の個人差,負荷雑音,伝送歪みなどが重畳している.音響処理部 音声波形データの分析・変換を行って,例えば短時間スペクトルなどの時系列デ ータ(ベクトル系列)$ y$ を出力する.言語復号部は$ y$ から送信文の推定値として $ \hat{\omega}$ を出力する. $ \hat{\omega}$ は,事後確率 $ P(\omega\vert y)$ が最大 になるように推定する. $ P(\omega\vert y)$ を直接求めるのは,通常困難であるので, べイズ則によって,次式を満たすように推定する.
$\displaystyle P(\hat{\omega}\vert y)=\max_\omega \frac{p(y\vert\omega)P(\omega)}{P(y)}$     (26)

ここで,$ P(y)$$ \omega$ に無関係であるので無視できる.尤度 $ P(y\vert\omega)$ は音響モデルによって得られ,文$ \omega$ が発生される事前確率P($ \omega$ )は言 語モデルによって得られる.したがって音声認識では,音響モデルと言語モデル をいかに作り, $ P(y\vert\omega)$$ P(\omega)$ を計算するがが重要となる.
図 13: 音声認識課程の確率モデル
\includegraphics{ninsiki.ps}


平成21年3月17日