図 9.2に5状態HMMのモデルの概略を、 図 9.3に8状態HMMのモデルの概略を、 図 9.4に10状態HMMのモデルの概略を示す。
これらの図は、 各HMMにおける状態遷移確率分布行列 及びシンボル生成確率分布行列 において、遷移確率 および品詞の生成確率が0.1以上のものを抽出し、それ未満のものは省略する ことで、各HMMの状態遷移と各遷移における品詞の生成確率を遷移ネットワー クの形で表現している。
その結果、次の様なネットワークの特徴が観察された。
ネットワークを構成する各遷移は、 様々な構文規則 (名詞+格助詞、動詞 助動詞 準体助詞 補助動詞 終助詞など) が重ね合わさって構成されていると考えられる。
初期状態の違いによるモデル化の揺らぎは、これらの構文規則の重なり方の違 いによって生じると考えられる。そこで、まずネットワークの形態と情報量(エントロピー)の 関係を調査した。
HMMのモデルの形態的な特徴を把握するため、次のようにしてモデルからネッ トワークを抽出した。
重ね合わさっていると考えられる個々の構文規則を抽出・解析することは困難 なので、特定の構文規則について各HMMにおけるモデル化の状態を調べた。
調査の対象となる構文規則として副詞を含む文節を取り上げた。
副詞を含む文節に着目したモデルの解析によって次の結果が得られた。
データベースの説明で報告したように、モデル化に使用したデータは、品詞の生成 確率が若干異なっている。(感動詞の生成確率が 11 (SET1)、3 (SET2))先に示した副詞を含む文節の生成確率も同様に異なっている。 (副詞単独、体言が後続、用言が後続の3グループの割合は、69.5, 1.9, 28.5 (SET1)、86.1, 3.2, 10.6 (SET2)である。)