Ergodic HMMの解析結果

次へ: モデルからの文法抽出 上へ: 対話データ 戻る: モデル化実験目次

Ergodic HMMの解析結果

図 9.2に5状態HMMのモデルの概略を、 図 9.3に8状態HMMのモデルの概略を、 図 9.4に10状態HMMのモデルの概略を示す。

これらの図は、各HMMにおける状態遷移確率分布行列及びシンボル生成確率分布行列において、遷移確率および品詞の生成確率が0.1以上のものを抽出し、それ未満のものは省略することで、各HMMの状態遷移と各遷移における品詞の生成確率を遷移ネットワークの形で表現している。

その結果、次の様なネットワークの特徴が観察された。

**図 9.2:** 5状態HMMによる遷移ネットワーク
$\begin{figure}\begin{center} \fbox{\epsfile{file=Ergodic-HMM/Part-of-Speech/5-state-grammar.epsf,width=120mm}}\end{center}\end{figure}$

**図 9.3:** 8状態HMMによる遷移ネットワーク
$\begin{figure}\begin{center} \fbox{\epsfile{file=Ergodic-HMM/Part-of-Speech/5-state-grammar.epsf,width=120mm}}\end{center}\end{figure}$

**図 9.4:** 10状態HMMによる遷移ネットワーク
$\begin{figure}\begin{center} \fbox{\epsfile{file=Ergodic-HMM/Part-of-Speech/5-state-grammar.epsf,width=120mm}}\end{center}\end{figure}$

ネットワークの形態
- 2状態HMMを除く各ネットワークに共通する部分として、 3個のノードで構成される自己遷移ループを持つ循環グラフが存在する。その他のノードは、この循環グラフに接続する非循環グラフを構成している。この循環グラフ部を分析した結果を以下に示す。
  1. 自己遷移を持つノードのうち、ひとつは体言に付属する部分に、もうひとつは用言に付属する部分に相当する。 (8状態HMM 図 9.3 ノード ○ 0, ○ 5 )
  2. 残りのノードは、感動詞、間投詞の自己遷移ループで、用言や副詞などを生成した後、用言に続く部分を生成するノードに遷移する。
  3. 2状態HMMによるモデルは、他の状態数のモデルとは異なり、体言と用言にそれぞれに付属する語の部分の自己遷移ループを自立語を生成するリンクが結合するモデルと、体言、用言のような自立語の分化が縮退し自立語を生成するリンクと付属語を生成する自己遷移ループのみで構成されるモデルの形をとる。
- 非循環グラフの部分は、 1回から3回の遷移で循環グラフ部に到達する。状態数の少ないHMMでは遷移は短く、状態数の増加に従って長い遷移が現れる。
- すべてのグラフに共通して見られる傾向として、体言に続く部分に接続するリンクは、体言が支配的に生成されるのに対し、用言に続く部分に接続するリンクは、用言や副詞などの語が支配的である。
  1. これらのノードは、5状態、8状態のHMMでは体言あるいは用言を生成するリンクのいずれか一方のみを持ち、ノードがはっきりと分化している。
  2. 10状態のHMMでは、 [接頭辞 $\rightarrow$ 名詞 $\mid$ 数詞 $\rightarrow$ 接尾辞] といった複雑な遷移が観察できる一方、ノード数が増え、リンクが増加しているにも関わらず、支配的な遷移を行なうリンクがさほど増えていない。状態遷移確率が平均化され、あるノードが体言・用言のどちらに分化しているのか明確に識別できない。
同一タスクにおけるモデル化の揺らぎ
ネットワークを構成する各遷移は、様々な構文規則 (名詞+格助詞、動詞助動詞準体助詞補助動詞終助詞など) が重ね合わさって構成されていると考えられる。
初期状態の違いによるモデル化の揺らぎは、これらの構文規則の重なり方の違いによって生じると考えられる。そこで、まずネットワークの形態と情報量（エントロピー）の関係を調査した。
HMMのモデルの形態的な特徴を把握するため、次のようにしてモデルからネットワークを抽出した。
1. モデル内の全ての $a_{ij} , b_{ij}(k)$ についてシンボル(品詞)生成確率が最小になるリンクを削除する。
2. 削除後、残されたリンクの確率を正規化し、モデルの情報量（エントロピー）がある一定値になるまで1.を繰り返す。
重ね合わさっていると考えられる個々の構文規則を抽出・解析することは困難なので、特定の構文規則について各HMMにおけるモデル化の状態を調べた。
調査の対象となる構文規則として副詞を含む文節を取り上げた。
- 副詞を含む文節は、そのほとんど全てが副詞を先頭に始まる。唯一の例外は、副詞の前に接頭辞が先行するもので (「おいくら」など) その連鎖確率は $10^{-3}$ 以下である。そのため、副詞以前の文脈を考慮する必要がなく解析が比較的容易である。
- 文節内文法の構造が比較的単純で明確に分化していること。 (副詞が単独で文節になるもの「例えば」、体言が後続するもの「もう一つ」、用言が後続するもの「どうでしょう」など、それぞれの割合は、69.5 $\%$ , 1.9 $\%$ , 28.5 $\%$ (SET1)、である。 )
副詞を含む文節に着目したモデルの解析によって次の結果が得られた。
- 5状態HMMでは、副詞を生成する遷移は、モデルにつき1ないし2箇所に存在する。その全てが用言に付属する語を生成する部分に結合する。解析を行なった10モデルのうち、副詞を生成する遷移が1箇所だったものは6モデル、残りは2箇所の遷移で副詞が生成されていた。この2つのグループの間には、エントロピーの有意な差は見い出せなかった。
- 8状態HMMでは、同様の遷移は、モデルにつき2から5箇所に存在する。副詞を生成する遷移の少ないモデルでは、5状態HMMに同じく用言に付属する語を生成する部分に結合する。これらのモデルのエントロピーの平均は2.51であった。10 モデルのうち2モデルに副詞を生成するリンクが体言に付属する語を生成する部分にも結合していた。これらのモデルのエントロピーは2.20で若干の減少がみられた。
- 10状態HMMでは、エントロピーの小さいモデルが複数存在したが、どのモデルも副詞を生成するリンクが体言に付属する語を生成する部分に結合していなかった。
タスクの違いによるモデル化の変化
データベースの説明で報告したように、モデル化に使用したデータは、品詞の生成確率が若干異なっている。(感動詞の生成確率が 11 $\%$ (SET1)、3 $\%$ (SET2))先に示した副詞を含む文節の生成確率も同様に異なっている。 (副詞単独、体言が後続、用言が後続の3グループの割合は、69.5 $\%$ , 1.9 $\%$ , 28.5 $\%$ (SET1)、86.1 $\%$ , 3.2 $\%$ , 10.6 $\%$ (SET2)である。)
- 感動詞は、単独で文節となるのでSET1とSET2で出現確率が異なってもモデルの遷移ネットワークの構造に大きな差異は見られない。ただし、ある遷移が感動詞だけを生成する割合はSET1(16.8 $\%$ )よりSET221.1 $\%$ が大きく、タスクがモデルに反映されている。
- 体言が後続する遷移の割合が SET1 (1.9 $\%$ )より SET2 (3.2 $\%$ )の方が大きい。このため、SET2をモデル化した場合、副詞が生成されるリンクは、状態数5のHMMから体言と用言の二つのグループに分化する。この場合もタスクが反映されている。

次へ: モデルからの文法抽出 上へ: 対話データ 戻る: モデル化実験目次

Jin'ichi Murakami 平成13年1月5日