next up previous
次へ: 評価 上へ: 音声対話システムにおける次発話予測の1手法 戻る: 意味表現bigramによる次発話予測


予測を利用した音声からの発話理解手法

入力された発話音声を認識し意味表現に変換する問題を,入力された音声 \(\mbox{\boldmath$A$}\)から意味表現\( \hat M \)を推定する問題ととらえ,次の式で表す.
\begin{displaymath}
\hat M = \mathop{\rm argmax}_{M} P(M\vert\mbox{\boldmath$A$})
\end{displaymath} (3)

(3)式にベイズ則を適用し,確率 \(P(\mbox{\boldmath$A$}\vert M) = \sum_i P(\mbox{\boldmath$A$}\vert S_i)P(S_i\vert M)\)を代入すると(4)式となる.
\begin{displaymath}
\hat M = \mathop{\rm argmax}_{M} P(M) \sum_i P(\mbox{\boldmath$A$}\vert S_i)P(S_i\vert M)
\end{displaymath} (4)

\( P(\mbox{\boldmath$A$}\vert S_i) \)は音響モデルから算出される音響スコアである. つまり,(4)式において$P(M)$として,予測モデルで推定される時刻$t$での意味表現出現確率$P(M_t)$を用いると,音声から意味表現の統計的な推定が可能である.



Jin'ichi Murakami 平成13年4月17日