自然言語を対象とした文法の記述は、 言語能力を持った人間が 自己の直観や経験をもとに 構文規則を記述する生成文法と、 実際の文集合の持つ統計情報をもとに 統計的な言語モデルとして記述する方法に大別される。
統計的言語モデルとして、 確率付き文脈自由文法や ネットワークに遷移確率を持たせたマルコフ過程による モデル化がある。 このような確率付きの文法は、 確率を持たないモデルに比較して 文法の複雑さ(Perplexity)が低減され [1] 、 音声認識システムの言語モデルとして用いた場合に 認識率を向上させることが知られている [2] [3] [4] 。
本研究では、 言語モデルとして マルコフ過程を拡張したHMMを用いる。 HMMは、二重構造化された確率過程 (状態遷移とシンボル生成) と初期状態の分布確率で構成される、 非決定性有限状態オートマトンの一種である。 HMMはランダムプロセスのモデルであるため、 言語のようにシンボルの連続で構成される系列 (VQコード→音韻、音韻列→単語、単語列→構文カテゴリ、 構文カテゴリ列→文) を特殊なランダムプロセスとしてモデル化することができる。 一方、HMMに 適切な条件(状態数など)を与えることにより、 言語の持つ非ランダム性を遷移ネットワークの形で 抽出できると考えられる。 さらにHMMは、 文脈自由文法や単純マルコフ過程より モデルの表現力に優れており、 より正確なモデル化が期待できる。
実験では、 ATR対話データベース(ADD) [5] における 日本語会話文の文節内における形態素の品詞連鎖を 全遷移型(ergodic)HMMでモデル化し、 さらに獲得した言語モデルから ネットワーク文法を自動的に抽出することを試みた。 また、このネットワークを解析し、 HMMが文法の持つ非ランダム性を どのように表現しているかを調べるとともに、 抽出されたネットワークがどのような文法的制約を表しているのか、 解析を行なった。