次へ: タスクの違いによるモデル化の変化
上へ: HMMによるモデル化
戻る: ネットワークの形態
ネットワークを構成する各遷移は、
様々な構文規則
(名詞+格助詞、動詞 助動詞 準体助詞 補助動詞 終助詞など)
が重ね合わさって構成されていると考えられる。
初期状態の違いによるモデル化の揺らぎは、
これらの構文規則の重なり方の違いによって生じると考えられる。
そこで、
まずネットワークの形態と情報量の関係を調査する。
HMMのモデルの形態的な特徴を把握するため、
次のようにしてモデルからネットワークを抽出した。
- モデル内の全ての
について
シンボル(品詞)生成確率が最小になるリンクを削除する。
- 削除後、残されたリンクの確率を正規化し、
モデルの情報量がある一定値になるまで1.を繰り返す。
重ね合わさっていると考えられる個々の構文規則を
抽出・解析することは困難なので、
特定の構文規則について各HMMにおけるモデル化の
状態を調べた。
調査の対象となる構文規則として副詞を含む文節を取り上げる。
-
副詞を含む文節は、そのほとんど全てが副詞を先頭に始まる。
唯一の例外は、副詞の前に接頭辞が先行するもので
(「お いくら」など)
その連鎖確率は以下である。
そのため、副詞以前の文脈を考慮する必要がなく
解析が比較的容易である。
- 文節内文法の構造が比較的単純で明確に分化していること。
(副詞が単独で文節になるもの「例えば」、
体言が後続するもの「もう 一 つ」、
用言が後続するもの「どう でしょ う」など、
それぞれの割合は、69.5, 1.9, 28.5 (SET1)、
である。
)
副詞を含む文節に着目したモデルの解析によって次の結果が得られた。
-
5状態HMMでは、
副詞を生成する遷移は、モデルにつき1ないし2箇所に存在する。
その全てが用言に付属する語を生成する部分に結合する。
解析を行なった10モデルのうち、
副詞を生成する遷移が1箇所だったものは6モデル、
残りは2箇所の遷移で副詞が生成されていた。
この2つのグループの間には、
エントロピーの有意な差は見い出せなかった。
-
8状態HMMでは、
同様の遷移は、モデルにつき2から5箇所に存在する。
副詞を生成する遷移の少ないモデルでは、
5状態HMMに同じく用言に付属する語を生成する部分に結合する。
これらのモデルのエントロピーの平均は2.51であった。
10モデルのうち2モデルに副詞を生成するリンクが
体言に付属する語を生成する部分にも結合していた。
これらのモデルのエントロピーは2.20で
若干の減少がみられた。
-
10状態HMMでは、
エントロピーの小さいモデルが複数存在したが、
どのモデルも副詞を生成するリンクが
体言に付属する語を生成する部分に結合していなかった。
Jin'ichi Murakami
平成13年10月5日