next up previous
次へ: 考察 上へ: 日本語の同音異義語の認識 1 戻る: アクセントモデルとアクセントtriphoneモデルの作成手順

同音異義語の認識実験結果

実験結果を表4567 に示す.表中のmau,mmy,mnmは男性話者であり,faf,fms,ftkは女性話者である.表 4は,音響パラメータにMFCC,共分散行列にDiagonal Covariance を用いた同音異義語の誤り率,表5は,音響パラメータにFBANK, 共分散行列にDiagonal Covarianceを用いた同音異義語の誤り率,表 6は,音響パラメータにMFCC,共分散行列にFull Covarianceを用 いた同音異義語の誤り率,表7は,音響パラメータにFBANK,共分 散行列にFull Covarianceを用いた同音異義語の誤り率,の結果である.


表: MFCC,Diagonalを用いた同音異義語の誤り率
話者 アクセントモデル アクセント
triphoneモデル
mau 27%(6/22) 18%(4/22)
mmy 18%(4/22) 27%(6/22)
mnm 36%(8/22) 27%(6/22)
faf 23%(5/22) 18%(4/22)
fms 9%(2/22) 0%(0/22)
ftk 6%(6/22) 27%(6/22)
男性平均 27%(18/66) 24%(16/66)
女性平均 20%(13/66) 15%(10/66)
平均 23%(31/132) 20%(26/132)


表: FBANK,Diagonalを用いた同音異義語の誤り率
話者 アクセントモデル アクセント
triphoneモデル
mau 23%(5/22) 27%(6/22)
mmy 23%(5/22) 27%(6/22)
mnm 41%(9/22) 32%(7/22)
faf 23%(5/22) 23%(5/22)
fms 5%(1/22) 0%(0/22)
ftk 32%(7/22) 18%(4/22)
男性平均 29%(19/66) 29%(19/66)
女性平均 20%(13/66) 14%(9/66)
平均 24%(32/132) 21%(28/132)


表: MFCC,Fullを用いた同音異義語の誤り率
話者 アクセントモデル アクセント
triphoneモデル
mau 14%(3/22) 5%(1/22)
mmy 23%(5/22) 5%(1/22)
mnm 32%(7/22) 14%(3/22)
faf 5%(1/22) 5%(1/22)
fms 9%(2/22) 9%(2/22)
ftk 27%(6/22) 27%(6/22)
男性平均 23%(15/66) 8%(5/66)
女性平均 14%( 9/66) 14%(9/66)
平均 18%(24/132) 11%(14/132)



表: FBANK,Fullを用いた同音異義語の誤り率
話者 アクセントモデル アクセント
triphoneモデル
mau 18%(4/22) 14%(3/22)
mmy 27%(6/22) 32%(7/22)
mnm 45%(10/22) 32%(7/22)
faf 0%(0/22) 9%(2/22)
fms 5%(1/22) 0%(0/22)
ftk 14%(3/22) 9%(2/22)
男性平均 30%(20/66) 26%(17/66)
女性平均 6%( 4/66) 6%( 4/66)
平均 18%(24/132) 16%(21/132)

実験より以下の結果を得た.

  1. 認識率が最大になる実験条件

    同音異義語の平均認識率は,HMMにアクセントtriphoneモデル,音響パ ラメータにMFCC,共分散行列にFull Covarianceを用いた実験において, 最も高い値,平均89%が得られた(表6).しかし,男性話者の平均と女性話者 の平均では,音響パラメータによって結果が異なる.男性話者の平均で は,HMMにアクセントtriphoneモデル,音響パラメータにMFCC,共分散 行列にFull Covariance を用いた実験で,認識精度92%が得られた(表6).女 性話者の平均では,HMMにアクセントtriphoneモデル,音響パラメータ にFBANK,共分散行列にFull Covariance を用いた実験で,認識精度 94%が得られた(表7).

  2. 男性と女性の比較

    男性と女性を比較すると,女性話者のほうが認識率は高い.しかし男性 話者においては,MFCCはFBANKより認識率が高い.しかし逆に女性話者 においては,FBANKはMFCCより認識率が高い.

  3. MFCCとFBANKの比較

    平均の認識率をみると,MFCCはFBANKより同音異義語の認識精度がわず かに高いが差は小さい.また,男性話者はMFCCが有効であるのに対し, 女性話者ではFBANKが有効である.

  4. 話者別の比較

    どの実験条件においても,話者によって認識率が大きく異なる.例えば, HMMにアクセントtriphoneモデル,音響パラメータにFBANK,共分散行列 にFull Covariance を用いた実験では,fmsの認識率は100%であったの に対し,fafの認識率は91%であった(表7).

  5. アクセントモデルとアクセントtriphoneモデルの比較

    多くの場合,アクセントtriphoneモデルの方がアクセントモデルより同 音異義語の認識率は高い.しかし,認識率が大きく改善されるのは,音 響パラメータがMFCCで共分散行列がFull Covarianceの男性話者のとき である.(誤り率が23%から8% に改善された(表6). その他の実験では,大きな差はない.


next up previous
次へ: 考察 上へ: 日本語の同音異義語の認識 1 戻る: アクセントモデルとアクセントtriphoneモデルの作成手順
Jin'ichi Murakami 平成21年10月7日