next up previous
次へ: 文法抽出に対する考察 上へ: HMMによるモデル化 戻る: タスクの違いによるモデル化の変化

モデルからの文法抽出

モデル化実験で得られた結果のうち、 もっともエントロピーの小さかったモデル (10状態HMM、SET2、entropy = 1.98) から抽出した文法の概略を2に示す。 抽出のアルゴリズムは、 同一タスクにおけるモデル化の揺らぎを調査した時と 同じものを用いた。

図 2: 10状態HMMから抽出した文節内文法
\begin{figure}\begin{center}
\fbox{\epsfile{file=figure2.eps,width=150mm}}\end{center}\end{figure}

2に示される番号は、 HMMの状態番号である。 先に述べた副詞を含む文節を生成する遷移は、 図の左半分、 $0$ $\bigcirc$ $\rightarrow$ $6$ $\bigcirc$$4$ $\bigcirc$ $\rightarrow$ $9$ $\bigcirc$ の部分に相当する。

図の上半分、 $5$ $\bigcirc$ $\rightarrow$ $1$ $\bigcirc$$3$ $\bigcirc$ $\rightarrow$ $1$ $\bigcirc$ の部分は、 接尾辞を伴う名詞ないし複合名詞を生成する。

図の下半分は、用言を生成する遷移に相当する。 $4$ $\bigcirc$ $\rightarrow$ $9$ $\bigcirc$ が自立部を形成し、 $7$ $\bigcirc$, $8$ $\bigcirc$, $2$ $\bigcirc$ が付属語を生成する。

なお、間投詞は状態 $1$ $\bigcirc$, $2$ $\bigcirc$, $8$ $\bigcirc$, $9$ $\bigcirc$ を 除く全ての状態から遷移する時に生成される。 図では省略している。 また、このモデルでは、 任意の状態から遷移を開始することができるが 状態 $5$ $\bigcirc$, $0$ $\bigcirc$, $3$ $\bigcirc$, $4$ $\bigcirc$ は、 他の状態からの遷移がないので、 事実上イニシャル・ノードとなっている。

図中の遷移には、 $0$ $\bigcirc$ $\rightarrow$ $1$ $\bigcirc$$5$ $\bigcirc$ $\rightarrow$ $1$ $\bigcirc$$3$ $\bigcirc$ $\rightarrow$ $1$ $\bigcirc$ 、 のように異なる経路で同じ品詞列を生成するものがあり、 やや冗長な構造になっている。 ただし、 この他のモデルでは、 エントロピーの増加とともに冗長パスや 生成する品詞が曖昧な遷移を多数生じるようになる。



Jin'ichi Murakami 平成13年10月5日