次へ: 音声認識の分類
上へ: 音声認識の原理
戻る: 音声認識の原理
目次
一般に人が発声した音声をコンピュータなどで認識する課程は,図
13のように通 信理論の問題として,確率モデルを用いて定式化でき
る.話者が文を考える課程が文発声部で,これを通信理論の情報源に対応させる.
音声認識システムを音響処理部と言語復号部に別ける.話者による発声部と音響
処理部を合わせて,一つの音響チャンネルとしてモデル化し,これを歪み(雑音)
のある通信路に対応させる.音声認識システムの主な部分である言語復号部を復
号部に対応させる.話者はまず,情報源に対応する文
を頭の中で組み立
て,それに基づいて,その話者の発話習慣に従って音声波形
を生成する.
には通常,話者の個人差,負荷雑音,伝送歪みなどが重畳している.音響処理部
音声波形データの分析・変換を行って,例えば短時間スペクトルなどの時系列デ
ータ(ベクトル系列)
を出力する.言語復号部は
から送信文の推定値として
を出力する.
は,事後確率
が最大
になるように推定する.
を直接求めるのは,通常困難であるので,
べイズ則によって,次式を満たすように推定する.
|
|
|
(26) |
ここで,
は
に無関係であるので無視できる.尤度
は音響モデルによって得られ,文
が発生される事前確率P(
)は言
語モデルによって得られる.したがって音声認識では,音響モデルと言語モデル
をいかに作り,
と
を計算するがが重要となる.
平成21年3月17日