認識単位として音素を選択したとき、HMMの学習のために、音素ラ ベルが付与された音声データが必要になる。ラベリング作業は自動 化がある程度可能であるが、最終的には人手に頼らざるを得ないた め、音声データベースの作成のコストはかなり高い。一方認識単位 を単語にしたばあい、ラベリング作業は不用になる。そのかわり、 数個の単語発声が必要があるため、発話者の負荷が大きくなる。し たがって認識システムの仕様や目的にも依存するが、認識単位を単 語としたときのほうが、音声データベースの作成に必要なコストは 低くなる可能性があると考えている。