Ergodic HMMの解析方法を以下に示す。
ネットワークの表示に用いた略号を表 9.11 に示す。
以後示すネットワークの図では、遷移の太細は遷移確率の大小を示し、品 詞名、活用形の略号の右の数字は(状態遷移確率出力確率)の値を示 している。また、初期確率が最大になっている状態(イニシャルノード)は太丸 で示した。
2状態のErgodic HMMについて解析した結果を図 9.7 に、初期状態確率、状態遷移確率を表 9.12 に示す。2状態のErgodic HMMで見られる特徴を以下に示す。
4状態のErgodic HMMについて解析した結果を図 9.8 に、初期状態確率、状態遷移確率を 表 9.13 に示す。
2状態のErgodic HMMに比べ、遷移の数が増加していて文 法的な特徴が見られる。また、単語の分離が生じ、ネットワーク上 では品詞ごとに集まって出力されているのがわかる。 そして、体言と用言(活用する品詞)の分離が特徴的である。 以下に4状態Ergodic HMMに見られる特徴を述べる。
初期状態確率 | = 0.00 | = 1.00 | = 0.00 | = 0.00 |
状態遷移確率 | = 0.38 | = 0.41 | = 0.07 | = 0.14 |
= 0.27 | = 0.43 | = 0.17 | = 0.13 | |
= 0.35 | = 0.11 | = 0.22 | = 0.32 | |
= 0.04 | = 0.48 | = 0.23 | = 0.25 |
8状態のErgodic HMMについて解析した結果を図 9.9 に、初期状態確率、状態遷移確率を 表 9.14 に示す。
=0 | =1 | =2 | =3 | =4 | =5 | =6 | =7 | |
初期状態確率 | 0.999 | 0.000 | 0.001 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 |
状態遷移確率 | ||||||||
=0 | 0.20 | 0.15 | 0.18 | 0.05 | 0.05 | 0.03 | 0.02 | 0.33 |
=1 | 0.02 | 0.04 | 0.05 | 0.05 | 0.04 | 0.35 | 0.28 | 0.17 |
=2 | 0.29 | 0.05 | 0.12 | 0.03 | 0.15 | 0.24 | 0.02 | 0.10 |
=3 | 0.02 | 0.57 | 0.23 | 0.03 | 0.01 | 0.05 | 0.02 | 0.06 |
=4 | 0.02 | 0.01 | 0.08 | 0.19 | 0.18 | 0.26 | 0.24 | 0.03 |
=5 | 0.04 | 0.04 | 0.10 | 0.10 | 0.31 | 0.06 | 0.17 | 0.19 |
=6 | 0.27 | 0.02 | 0.19 | 0.03 | 0.16 | 0.04 | 0.01 | 0.28 |
=7 | 0.05 | 0.14 | 0.24 | 0.09 | 0.05 | 0.04 | 0.09 | 0.30 |
図 9.9 から、品詞、活用形が同じ単語が、4状態の場合よ りも同じ状態遷移に収束して出力されていることがわかる。体言や活用する品 詞など同一品詞が複数の遷移で出力されている。また、2状態、4状態の場合に 比べ、より細かな文法的特徴が見られる。 以下に、8状態Ergodic HMMから抽出される特徴を述べる。
間投詞(あのー、えー、など)や感動詞(もしもし、はい、など)がイ ニシャルノード(遷移を開始する状態)○ 0からの遷移で出力さ れている。
本動詞、補助動詞、助動詞、形容詞のような活用する単語は品詞の 基本形ではなく、活用形でグループ化されている。連体形は状態 ○ 3 への遷移 (○ 4,○ 1○ 3)で、 連用形は状態○ 4への遷移 (○ 4,○ 5,○ 6○ 4)で、 助動詞の終止形は状態○ 6への遷移(○ 1,○ 4,○ 5○ 6)で、 それぞれ出力されている。
名詞は主として状態○ 0○ 3○ 7から状態 ○ 1○ 2に遷移する際に出力されている。 しかし、各々の遷移には特徴がある。 ○ 3からの遷移では、形式名詞が他の名詞類よりもやや高い。また、 ○ 3○ 1の遷移では準体助詞「の」が出力 されている。状態○ 7からの遷移では、個々の単語出力の上位 は代名詞が多い。状態○ 0からの遷移では、主として形式名詞 「方」(ほう)が出力されている。また、名詞以外の単語では副詞 の出力が多く見られた。
格助詞は複数の遷移 (○ 2○ 0,○ 4,○ 5,○ 7), (○ 1○ 5,○ 7)で出力されているが、 各遷移は別々のそれぞれ異なる単語を出力している。例を以下に示 す。
なお、付録Bに8状態Ergodic HMMから抽出される細かい特徴を述べた。
16状態のErgodic HMMについて解析した結果を図 9.10 に示す。ネットワークが複雑なため、よ り簡略化した略号を用い(表 9.15 参照)、出 力確率値の%は省略して表示した。また、初期状態確率を表 9.16 に示した。
0.00 | 0.00 | 0.00 | 0.00 | ||||
0.00 | 0.00 | 0.00 | 0.00 | ||||
0.89 | 0.00 | 0.00 | 0.00 | ||||
0.11 | 0.00 | 0.00 | 0.00 |
16状態のErgodic HMMでは、状態数の少ないモデルに比べ、多くの状態遷移に おいて一つの品詞のみが出力され、状態遷移ごとの単語の出力の偏りが顕著に なっている。
8状態に比べ、活用する品詞の記述がより細かくなり、また、2つの状態 (○ 2, ○ 3)で初期状態確率の値を持つなど、より複雑なネットワー クを形成している。
8状態の場合と同様に、同一品詞が複数の遷移で出力される場合は、遷 移の起点か、または終点が同じ状態であることが多い。主に、ネットワー クの左の部分で「名詞+格助詞」などの主部が記述され、右の部分で 「動詞+助動詞」などの述部が記述されている。以下に16状態Ergodic HMMから抽出される特徴を品詞ごとに述べる。
間投詞、感動詞は、4、8状態の場合と同様に初期状態確率の高い状 態(○ 2, ○ 3)からの遷移で出力される。ただし、初期状 態確率は状態○ 2○ 3の2状態に値を持ち、初期状態確率 が最も高い状態○ 2での自己ループは見られない。
名詞は主として、○ 5, ○ 6, ○ 7から○ 1, ○ 9, ○ 12への遷移で出力されている。
状態○ 6○ 7からの遷移では主として形式名詞が出力され、 状態○ 5からの遷移では、形式名詞以外の名詞が出力される。 このように普通名詞と形式名詞の分化がおきている。なお、 状態○ 5からの遷移では、出力確率が特に高い単語はなく、多 種類の普通名詞の単語がこの遷移で出力されている。
8状態のErgodic HMMでは活用形でグループ化されていた。これに対 し16状態では品詞の基本形でもグループ化されている。本動詞は状 態○ 8○ 5からの遷移で、補助動詞は状態 ○ 0○ 4からの遷移で、助動詞は状態 ○ 0○ 11○ 13からの遷移でそれぞれ出力されている。
本動詞は複数の遷移において出力されているが、主に ○ 8,○ 15からの遷移で出力される。しかし、各遷移によっ て出力される単語に違いが見られる。また、本動詞の中でも連用形 が他の活用形に比べ非常に高い。補助動詞は、○ 0,○ 4 からの遷移で出力される。本動詞と同様に連用形の出力が多く、助 動詞をともなうことが多い。また。状態○ 0から出力される単 語は表記が異なるものの意味的には「する」と同じものが多い。助 動詞は、遷移の起点となる状態によって全く異なるを出力しており、 8状態と同様に「です」「ます」がグループ化され、さらに16状態 では「た」「たい」が他の単語からグループ化して出力されている。
格助詞は、主に名詞を出力した遷移の集まる状態 ○ 8○ 9○ 12からの遷移で出力される。 例を次に示す。8状態では同じ遷移で出力されていた「で」と「に」、 「が」と「を」が別々の遷移に分かれて出力されている。
なお、付録C において、16状態Ergodic HMMから抽出される特徴 を品詞ごとに詳細に報告した。