音声認識に利用される言語モデルには、ネットワーク文法や文脈自 由文法に代表される構文モデル[1]や、bigram・trigramに代表される 統計モデル[2][3]がある。
ネットワーク文法や文脈自由文法などの構文的な言語モデルは、自 然言語処理の分野で実績があるが、言語に関する知識に基づいて構 文規則を人間が記述するため多大な労力を要する。一方bigramや trigramなどの統計モデルは、簡単なモデルであるため音声認識の 分野で言語モデルとして良く利用されている[2]が、このモ デルは言語を表現するにはあまりにも単純である。そこで両モデル の問題点を補完するために、構文モデルに確率を加えた確率つきネッ トワーク文法や確率つき文脈自由文法などの研究がある [4][5]。
ところで音声認識の分野では隠れマルコフモデル(HMM)が良く利用 されている[4]。HMMの種類の中で全状態間の遷移の許 された離散型Ergodic HMMの構造と確率つきネットワーク文法の構 造は類似している。またHMMはBaum-Welch algorithmを用いること によって、学習データの生成尤度が最大になるように各パラメータ を推定することができる。そこで言語モデルとしてErgodic HMMを 考え、テキストデータを学習データとしてBaum-Welch algorithmを 利用することにより、確率つきネットワーク文法を自動的に獲得で きる可能性がある。
なお、村瀬等[7]はカテゴリーを学習データとして学習 後のモデルのエントロピーを調べ、bigramやtrigramと比較し、 Ergodic HMMによる言語のモデル化の可能性を報告している。田本 等[8]は品詞を学習データとして、学習後のErgodic HMM を解析し、その形態が従来使われているネットワーク文法と類似し ていることを報告している。また、英語ではErgodic HMMは確率つ きネットワーク文法の獲得手段としてでなく [4][5]、形態素解析として研究されることが 多かった[6]。この場合、品詞ラベルが付与された大量 のテキストデータがあればHMMのパラメータは直接計算できるため、 品詞ラベルがないテキストデータからBaum-Welchの学習アルゴリズ ムを用いた大規模な実験はまだ行なわれていないようである。
本論文では日本語においてテキストデータを単語の系列と見なして Ergodic HMMを学習させた。この場合Ergodic HMMはネットワーク文 法と同時に、単語に対する新しい品詞体系を得ることができる可能 性がある。この観点から学習後のErgodic HMMのパラメータを調べ た。また文音声認識における言語情報として用いたときの有効性な ども調べた[9][10]。