next up previous contents
次へ: まとめ 上へ: 対話データ 戻る: Ergodic HMMの解析結果   目次

モデルからの文法抽出

モデル化実験で得られた結果のうち、もっともエントロピーの小さかったモ デル(10状態HMM、SET2、entropy = 1.98)から抽出した文法の概略を 9.5に示す。抽出のアルゴリズムは、同一タスクにおける モデル化の揺らぎを調査した時と同じものを用いた。

図 9.5: 10状態HMMから抽出した文節内文法
\begin{figure}\begin{center}
\fbox{\epsfile{file=Ergodic-HMM/Part-of-Speech/phrase-grammar.epsf,width=120mm}}\end{center}\end{figure}

9.5に示される番号は、HMMの状態番号である。 先に述べ た副詞を含む文節を生成する遷移は、図の左半分、 ○ 0 $\rightarrow $ ○ 6 、 ○ 4 $\rightarrow $ ○ 9 の部分に相当する。図 の上半分、 ○ 5 $\rightarrow $ ○ 1 、 ○ 3 $\rightarrow $ ○ 1 の部分は、接尾辞を伴う名詞ないし複合 名詞を生成する。図の下半分は、用言を生成する遷移に相当する。 ○ 4 $\rightarrow $ ○ 9 が自立部を形成し、 ○ 7, ○ 8, ○ 2 が付属語を生成する。 なお、間投詞は状態 ○ 1, ○ 2, ○ 8, ○ 9 を除く 全ての状態から遷移する時に生成されるが図では省略している。また、この モデルでは、任意の状態から遷移を開始することができるが状態 ○ 5, ○ 0, ○ 3, ○ 4 は、他の状態からの遷移がないので、事 実上イニシャル・ノードとなっている。

図中の遷移には、○ 0 $\rightarrow $ ○ 1 、 ○ 5$\rightarrow $ ○ 1 、○ 3 $\rightarrow $ ○ 1 、のように異なる経路で同じ品詞列を生成するものがあり、やや冗長な 構造になっている。ただし、この他のモデルでは、エントロピーの増加とと もに冗長なパスや生成する品詞が曖昧な遷移を多数生じるようになる。

文法抽出に対する考察

HMMによる文法抽出は、エントロピーを指標としてモデルを評価することがで きるが、最適なモデルを得るためには、生成・評価のサイクルを繰り返しな がらエントロピーの小さなモデルを探す必要がある。これを避けるには、例 えば、エントロピーの小さなモデルを生成したHMMの初期状態を解析し、得ら れた知見によってよりエントロピーの小さいモデルを生成するように初期状 態を設定する手法が考えられる。

初期状態とともに考慮すべきこととしてモデルの状態数の最適化がある。状 態数の多いHMMはより複雑なタスクを扱うことができるが状態数が多過ぎると かえって冗長・曖昧性が生じ、モデルの最適性が失われてしまう。この問題 は、タスクのパープレキシティを考慮して状態数を選択することにより、あ る程度解消できる。

さらに、同じ品詞でも連体修飾・連用修飾を行なうものは、遷移が分化して いるものがあるように、品詞のサブカテゴリを扱うことでより詳細なモデル を生成することや、逆にHMMによって品詞のサブカテゴリ化を図ることができ る。



Jin'ichi Murakami 平成13年1月5日