次へ: 音声認識の分類
上へ: 音声認識の原理
戻る: 音声認識の原理
目次
一般に人が発声した音声をコンピュータなどで認識する課程は,図
1のように通
信理論の問題として,確率モデルを用いて定式化できる.話者が文を考える課程
が文発声部で,これを通信理論の情報源に対応させる.音声認識システムを音響
処理部と言語復号部に別ける.話者による発声部と音響処理部を合わせて,一つ
の音響チャンネルとしてモデル化し,これを歪み(雑音)のある通信路に対応させ
る.音声認識システムの主な部分である言語復号部を復号部に対応させる.話者
はまず,情報源に対応する文を頭の中で組み立て,それに基づいて,そ
の話者の発話習慣に従って音声波形を生成する.には通常,話者の個人差,
負荷雑音,伝送歪みなどが重畳している.音響処理部音声波形データの分析・変
換を行って,例えば短時間スペクトルなどの時系列データ(ベクトル系列)を
出力する.言語復号部はから送信文の推定値としてを出力す
る.は,事後確率が最大になるように推定する.
を直接求めるのは,通常困難であるので,べイズ則によって,次
式を満たすように推定する.
|
|
|
(1) |
ここで,はに無関係であるので無視できる.尤度
は音響モデルによって得られ,文が発生される事前確率P()は言
語モデルによって得られる.したがって音声認識では,音響モデルと言語モデル
をいかに作り,とを計算するが重要となる.
平成20年3月11日