日本語では,「箸」,「橋」のような音韻的には同一だがアクセントの違いに よって弁別できる単語が存在する.しかし,従来の単語音声認識においては主 に音声の音韻的特徴が用いられており,日本語における同音異義語の音声認識 の研究はあまり行われていない[8].過去の韻律的特徴を用いた研究と しては高橋ら[7]の研究がある.この研究では,韻律情報を認識率を 向上させるために用いている.また中国語では,アクセントの違いにより単語 の意味が異なる.このため音声認識において韻律を含めて認識する研究が多く 行われている.これらの研究の多くは,音声の音韻情報としてMFCCを,韻律情 報としてピッチ周波数を抽出して,2つの情報を組み合わせて認識している [1][2].しかし,母音はピッチがあるが子音はピッチがないため,音 声から信頼性のあるピッチ周波数を抽出するのは困難である.特に不特定話者 では,倍ピッチや半ピッチが出力されやすい.
本研究では,同音異義語を認識するために,ピッチ周波数の抽出をおこなわず に,ピッチが音響パラメータに影響を与えることを利用する.具体的には,単 語のアクセント型と各モーラ位置でのアクセントの高低情報を音素ラベルに付 与したHMMを作成する.このモデルを用いて同音異義語の音声認識を行い,認識 精度を調査する.調査は評価データ中の同音異義語の対を抽出して行う. また,アクセント情報や前後音素環境情報を音素に付与すると音素数が膨大に なるので,本研究では半連続型HMM[5]を用いる.音響パラメータと してはMFCCとFBANKを用いる.