次へ: アクセントモデル・アクセントtriphoneモデル 上へ: 日本語の同音異義語の認識 ¹ 戻る: 日本語の同音異義語の認識 ¹

はじめに

日本語では，「箸」，「橋」のような音韻的には同一だがアクセントの違いによって弁別できる単語が存在する．しかし，従来の単語音声認識においては主に音声の音韻的特徴が用いられており，日本語における同音異義語の音声認識の研究はあまり行われていない[8]．過去の韻律的特徴を用いた研究としては高橋ら[7]の研究がある．この研究では，韻律情報を認識率を向上させるために用いている．また中国語では，アクセントの違いにより単語の意味が異なる．このため音声認識において韻律を含めて認識する研究が多く行われている．これらの研究の多くは，音声の音韻情報としてMFCCを，韻律情報としてピッチ周波数を抽出して，２つの情報を組み合わせて認識している [1][2]．しかし，母音はピッチがあるが子音はピッチがないため，音声から信頼性のあるピッチ周波数を抽出するのは困難である．特に不特定話者では，倍ピッチや半ピッチが出力されやすい．

本研究では，同音異義語を認識するために，ピッチ周波数の抽出をおこなわずに，ピッチが音響パラメータに影響を与えることを利用する．具体的には，単語のアクセント型と各モーラ位置でのアクセントの高低情報を音素ラベルに付与したHMMを作成する．このモデルを用いて同音異義語の音声認識を行い，認識精度を調査する．調査は評価データ中の同音異義語の対を抽出して行う．また，アクセント情報や前後音素環境情報を音素に付与すると音素数が膨大になるので，本研究では半連続型HMM[5]を用いる．音響パラメータとしてはMFCCとFBANKを用いる．

Jin'ichi Murakami 平成21年10月7日