next up previous contents
次へ: 実験結果 上へ: 単語のHMMとbigramを利用した文節音声認識 戻る: 認識単位を単語とした文節音声認識   目次

文節音声認識実験

  1. 実験条件

    認識実験ではduration control とN-bestのサーチ幅を変化させて 行なった。また、単語のHMMの学習のデータを増加させた場合の実 験も行なった。これらの実験の条件を表 4.1に示す。その他の実験条件は表 4.2にまとめた。なおduration controlは同一話者の単語発声の3回分のデータの平均発声時間と 分散を測定し、この値からガウス分布を計算し、duration control に使用した。(単語のマッチングが終了してからduration controlの尤度を乗じた。)


    表 4.1: 実験条件
    実験番号 duration N-best 学習データ
      control   の個数
    実験1 なし 2 1
    実験2 あり 2 1
    実験3 あり 8 1
    実験4 あり 2 3

  2. テストデータ

    X線CT所見作成の文章は大きくわけて正常所見と異常所見に分類される。そ して異常所見は正常所見と比較すると文章が複雑なため、認識率が低くな ることが知られている[86]。そこで実験は、bigramの連鎖確率 を計算するのに使用したテキストを発声した音声データ(text-closed data)とbigramの連鎖確率を計算するのに使用しなかったテキストを発声し た音声データ(text-open data)について、各々異常所見と正常所見につい て合計4つの条件で行なった。実験は平均100文節で行なった。例文は 図3.5参照。


    表 4.2: 文節音声認識の実験条件
    使用アルゴリズム word HMM + Viterbi search
      + word bigram
      特定話者認識
    話者数 1
    発話様式 文節発声
    認識単位 word
    語彙数 約3000
    学習データ 単語発声
    言語情報 単語bigram
    音響パラメータ log power + 16次LPCcepstrum
      + $\Delta$log power
    距離尺度 簡易マハラノビス
    VQコード数 256
    単語モデル 4-state 3-loop Fuzzy-VQ HMM
    フレーム窓長 18ms
    フレーム周期 9ms
    ファジネス 1.5
    近傍数 5
    サンプリング周波数 12kHz
    HMMとbigramの 32
    結合値 $\alpha $  


    表 4.3: テストデータの実験
    \begin{table}\begin{center}
\par\fbox
{
\begin {minipage}{10cm}
\begin{enumerate...
...-open data の異常所見
\par
\end{enumerate}\end{minipage}}\end{center}\end{table}



next up previous contents
次へ: 実験結果 上へ: 単語のHMMとbigramを利用した文節音声認識 戻る: 認識単位を単語とした文節音声認識   目次
Jin'ichi Murakami 平成13年1月5日