next up previous contents
次へ: 音声認識の分類 上へ: 音声認識の原理 戻る: 音声認識の原理   目次

音声認識の構成

一般に人が発声した音声をコンピュータなどで認識する課程は,図 1のように通 信理論の問題として,確率モデルを用いて定式化できる.話者が文を考える課程 が文発声部で,これを通信理論の情報源に対応させる.音声認識システムを音響 処理部と言語復号部に別ける.話者による発声部と音響処理部を合わせて,一つ の音響チャンネルとしてモデル化し,これを歪み(雑音)のある通信路に対応させ る.音声認識システムの主な部分である言語復号部を復号部に対応させる.話者 はまず,情報源に対応する文$\omega$を頭の中で組み立て,それに基づいて,そ の話者の発話習慣に従って音声波形$s$を生成する.$s$には通常,話者の個人差, 負荷雑音,伝送歪みなどが重畳している.音響処理部音声波形データの分析・変 換を行って,例えば短時間スペクトルなどの時系列データ(ベクトル系列)$y$を 出力する.言語復号部は$y$から送信文の推定値として$\hat{\omega}$を出力す る.$\hat{\omega}$は,事後確率$P(\omega\vert y)$が最大になるように推定する. $P(\omega\vert y)$を直接求めるのは,通常困難であるので,べイズ則によって,次 式を満たすように推定する.
$\displaystyle P(\hat{\omega}\vert y)=\max_\omega \frac{p(y\vert\omega)P(\omega)}{P(y)}$     (1)

ここで,$P(y)$$\omega$に無関係であるので無視できる.尤度$P(y\vert\omega)$ は音響モデルによって得られ,文$\omega$が発生される事前確率P($\omega$)は言 語モデルによって得られる.したがって音声認識では,音響モデルと言語モデル をいかに作り,$P(y\vert\omega)$$P(\omega)$を計算するが重要となる.
図 1: 音声認識課程の確率モデル
\includegraphics{eps/ninsiki.eps}



平成20年3月11日