next up previous contents
次へ: 音声の特徴抽出 上へ: pap 戻る: はじめに   目次

音声認識

音声認識とは,音声波に含まれる意味内容に関する情報(言語情報)をコンピュー タや電気回路によって抽出し,判定する処理である. 一般に人が発声した音声をコンピュータなどで認識する過程は,図 1のように通 信理論の問題として,確率モデルを用いて定式化できる.話者が文を考える課程 が文発声部で,これを通信理論の情報源に対応させる.音声認識システムを音響 処理部と言語復号部に別ける.話者による発声部と音響処理部を合わせて,一つ の音響チャンネルとしてモデル化し,これを歪み(雑音)のある通信路に対応させ る.音声認識システムの主な部分である言語復号部を復号部に対応させる.話者 はまず,情報源に対応する文$ \omega$ を頭の中で組み立て,それに基づいて,そ の話者の発話習慣に従って音声波形$ s$ を生成する.$ s$ には通常,話者の個人差, 負荷雑音,伝送歪みなどが重畳している.音響処理部音声波形データの分析・変 換を行って,時系列データ(ベクトル系列)$ y$ を 出力する.言語復号部は$ y$ から送信文の推定値として $ \hat{\omega}$ を出力す る. $ \hat{\omega}$ は,事後確率 $ P(\omega\vert y)$ が最大になるように推定する. $ P(\omega\vert y)$ を直接求めるのは,通常困難であるので,べイズ則によって,式(1)を満たすように推定する.
$\displaystyle P(\hat{\omega}\vert y)=\max_\omega \frac{P(y\vert\omega)P(\omega)}{P(y)}$     (1)

ここで,$ P(y)$$ \omega$ に無関係であるので無視できる.尤度 $ P(y\vert\omega)$ は音響モデルによって得られ,文$ \omega$ が発生される事前確率P($ \omega$ )は言 語モデルによって得られる.したがって音声認識では,音響モデルと言語モデル をいかに作り, $ P(y\vert\omega)$$ P(\omega)$ を計算するかが重要となる[6].
図: 音声認識課程の確率モデル
\includegraphics{ninsiki.eps}



Subsections

平成24年3月20日