next up previous contents
次へ: 文の平均尤度およびモデルのエントロピー 上へ: 実験結果 戻る: 実験結果   目次


Ergodic HMMの解析

Ergodic HMMの解析方法を以下に示す。

  1. 単語に品詞(活用するものは活用形の区別をしている)のラベルをつ ける。

    \begin{figure}\begin{center}
\epsfile{file=Ergodic-HMM/Figure/how2ana1.ps,width=130mm}
\end{center}\par\end{figure}

  2. 各遷移について、同一品詞の単語のシンボル出力確率の和を品詞ご とに求める。

    \begin{figure}\begin{center}
\epsfile{file=Ergodic-HMM/Figure/how2ana2.ps,width=130mm}
\end{center}\par\end{figure}

  3. (状態遷移確率$\times$出力確率)が5%未満の品詞はカットしてネッ トワークを表示する。

    \begin{figure}\begin{center}
\epsfile{file=Ergodic-HMM/Figure/how2ana3.ps,width=130mm}
\end{center}\par\end{figure}

ネットワークの表示に用いた略号を表 9.11 に示す。


表 9.11: 品詞・活用形の略号
品詞名 略号 品詞名 略号 品詞名 略号 品詞名 略号 品詞名 略号
普通名詞 普名 助動詞 助動 格助詞 格助 準体助詞 準助 未然形
代名詞 代名 間投詞 間投 係助詞 係助 接頭辞 接頭 終始形
本動詞 本動 感動詞 感動 接続助詞 接助 接尾辞 接尾 連体形
補助動詞 補動 副詞 副詞 終助詞 終助 連用形    

以後示すネットワークの図では、遷移の太細は遷移確率の大小を示し、品 詞名、活用形の略号の右の数字は(状態遷移確率$\times$出力確率)の値を示 している。また、初期確率が最大になっている状態(イニシャルノード)は太丸 で示した。

  1. 2状態Ergodic HMMの解析結果

    2状態のErgodic HMMについて解析した結果を図  9.7 に、初期状態確率、状態遷移確率を表  9.12 に示す。2状態のErgodic HMMで見られる特徴を以下に示す。

    1. 主として、○ 1$\Rightarrow$ ○ 0の遷移で普通名詞を出力し、これに続く状態 ○ 0からの遷移(○ 0 $\Rightarrow$ ○ 1, ○ 0 $\Rightarrow$ ○ 0)で普通名詞に接続する格助詞を 出力している。

    2. 実験に用いた言語データは電話 での対話であるため、間投詞(あのー、えー、など)や感動詞(もし もし、はい、など)が文頭や文の切れ目で用いられた文が多く含ま れている。これらがErgodic HMMでは、太丸で示したイニシャルノー ド(=遷移を開始する状態=文頭) ○ 1のループで出力されており、学習データの特徴を示してい る。

    3. 状態数が少ないために、全体的に表現力が乏しい。


    表 9.12: 2状態Ergodic HMMのパラメータ
    初期状態確率 $\pi_0$ = 0.002 $\pi_1$ = 0.998
    状態遷移確率 $a_{00}$ = 0.36 $a_{01}$ = 0.64
      $a_{10}$ = 0.54 $a_{11}$ = 0.46

    図 9.7: 2状態Ergodic HMMの解析結果
    \begin{figure}\begin{center}
\epsfile{file=Ergodic-HMM/Figure/2st-L-model.ps,width=100mm}
\end{center}\end{figure}

  2. 4状態Ergodic HMMの解析結果

    4状態のErgodic HMMについて解析した結果を図  9.8 に、初期状態確率、状態遷移確率を 表 9.13 に示す。

    2状態のErgodic HMMに比べ、遷移の数が増加していて文 法的な特徴が見られる。また、単語の分離が生じ、ネットワーク上 では品詞ごとに集まって出力されているのがわかる。 そして、体言と用言(活用する品詞)の分離が特徴的である。 以下に4状態Ergodic HMMに見られる特徴を述べる。

    1. 文頭の間投詞、感動詞はイニシャルノード○ 1のループで出力 されている。

    2. 名詞は主として、状態○ 0に集まる遷移 (○ 2○ 0$\Rightarrow$○ 0)で出力される。

    3. 活用する品詞(本動詞、補助動詞、助動詞、形容詞)は状態 ○ 2○ 3に集まる遷移 (○ 2○ 3$\Rightarrow$○ 2, ○ 0○ 1○ 2$\Rightarrow$○ 3) で出力されている。そして、連体形のものは状態○ 2に集まる 遷移(○ 2○ 3$\Rightarrow$○ 2)で出力され、連用 形のものは主に状態○ 3に集まる遷移 (○ 1○ 2○ 3$\Rightarrow$○ 3)で出力されて いる。


    表 9.13: 4状態Ergodic HMMのパラメータ
    初期状態確率 $\pi_0$ = 0.00 $\pi_1$ = 1.00 $\pi_2$ = 0.00 $\pi_3$ = 0.00
    状態遷移確率 $a_{00}$ = 0.38 $a_{01}$ = 0.41 $a_{02}$ = 0.07 $a_{03}$ = 0.14
      $a_{10}$ = 0.27 $a_{11}$ = 0.43 $a_{12}$ = 0.17 $a_{13}$ = 0.13
      $a_{20}$ = 0.35 $a_{21}$ = 0.11 $a_{22}$ = 0.22 $a_{23}$ = 0.32
      $a_{30}$ = 0.04 $a_{31}$ = 0.48 $a_{32}$ = 0.23 $a_{33}$ = 0.25

    図 9.8: 4状態Ergodic HMMの解析結果
    \begin{figure}\begin{center}
\epsfile{file=Ergodic-HMM/Figure/4st-L-model.ps,width=120mm}
\end{center}\end{figure}

  3. 8状態Ergodic HMMの解析結果

    8状態のErgodic HMMについて解析した結果を図  9.9 に、初期状態確率、状態遷移確率を 表 9.14 に示す。


    表 9.14: 8状態Ergodic HMMのパラメータ
      $j$=0 $j$=1 $j$=2 $j$=3 $j$=4 $j$=5 $j$=6 $j$=7
    初期状態確率 $\pi_j$ 0.999 0.000 0.001 0.000 0.000 0.000 0.000 0.000
    状態遷移確率 $a_{ij}$                
    $i$=0 0.20 0.15 0.18 0.05 0.05 0.03 0.02 0.33
    $i$=1 0.02 0.04 0.05 0.05 0.04 0.35 0.28 0.17
    $i$=2 0.29 0.05 0.12 0.03 0.15 0.24 0.02 0.10
    $i$=3 0.02 0.57 0.23 0.03 0.01 0.05 0.02 0.06
    $i$=4 0.02 0.01 0.08 0.19 0.18 0.26 0.24 0.03
    $i$=5 0.04 0.04 0.10 0.10 0.31 0.06 0.17 0.19
    $i$=6 0.27 0.02 0.19 0.03 0.16 0.04 0.01 0.28
    $i$=7 0.05 0.14 0.24 0.09 0.05 0.04 0.09 0.30

    図 9.9: 8状態Ergodic HMMの解析結果
    \begin{figure}\begin{center}
\epsfile{file=Ergodic-HMM/Figure/8st-L-model.ps,width=140mm}
\end{center}\end{figure}

    図 9.9 から、品詞、活用形が同じ単語が、4状態の場合よ りも同じ状態遷移に収束して出力されていることがわかる。体言や活用する品 詞など同一品詞が複数の遷移で出力されている。また、2状態、4状態の場合に 比べ、より細かな文法的特徴が見られる。 以下に、8状態Ergodic HMMから抽出される特徴を述べる。

    1. 間投詞、感動詞について

      間投詞(あのー、えー、など)や感動詞(もしもし、はい、など)がイ ニシャルノード(遷移を開始する状態)○ 0からの遷移で出力さ れている。

    2. 品詞の基本形と活用形について

      本動詞、補助動詞、助動詞、形容詞のような活用する単語は品詞の 基本形ではなく、活用形でグループ化されている。連体形は状態 ○ 3 への遷移 (○ 4,○ 1$\Rightarrow$○ 3)で、 連用形は状態○ 4への遷移 (○ 4,○ 5,○ 6$\Rightarrow$○ 4)で、 助動詞の終止形は状態○ 6への遷移(○ 1,○ 4,○ 5$\Rightarrow$○ 6)で、 それぞれ出力されている。

      名詞は主として状態○ 0○ 3○ 7から状態 ○ 1○ 2に遷移する際に出力されている。 しかし、各々の遷移には特徴がある。 ○ 3からの遷移では、形式名詞が他の名詞類よりもやや高い。また、 ○ 3$\Rightarrow$○ 1の遷移では準体助詞「の」が出力 されている。状態○ 7からの遷移では、個々の単語出力の上位 は代名詞が多い。状態○ 0からの遷移では、主として形式名詞 「方」(ほう)が出力されている。また、名詞以外の単語では副詞 の出力が多く見られた。

    3. 格助詞について

      格助詞は複数の遷移 (○ 2$\Rightarrow$○ 0,○ 4,○ 5,○ 7), (○ 1$\Rightarrow$○ 5,○ 7)で出力されているが、 各遷移は別々のそれぞれ異なる単語を出力している。例を以下に示 す。

      1. 状態○ 2$\Rightarrow$状態○ 0 「の」 (94%)
      2. 状態○ 2$\Rightarrow$状態○ 7 「から」 (28%) 「で」 (25%)
      3. 状態○ 2$\Rightarrow$状態○ 4 「と」 (94%)
      4. 状態○ 2$\Rightarrow$状態○ 5 「に」 (73%) 「で」 (18%)
      5. 状態○ 1$\Rightarrow$状態○ 5 「を」 (39%) 「が」 (27%)
      6. 状態○ 1$\Rightarrow$状態○ 7 「は」 (80%) 「も」 (7%)

    なお、付録Bに8状態Ergodic HMMから抽出される細かい特徴を述べた。

  4. 16状態Ergodic HMMの解析結果

    16状態のErgodic HMMについて解析した結果を図  9.10 に示す。ネットワークが複雑なため、よ り簡略化した略号を用い(表 9.15 参照)、出 力確率値の%は省略して表示した。また、初期状態確率を表  9.16 に示した。


    表 9.15: 品詞・活用形の略号2
    品詞名 略号 品詞名 略号 品詞名 略号 品詞名 略号 品詞名 略号
    普通名詞 助動詞 格助詞 準体助詞 未然形
    代名詞 間投詞 係助詞 接頭辞 終始形
    本動詞 感動詞 接続助詞 接助 接尾辞 連体形
    補助動詞 副詞 終助詞 連用形    


    表 9.16: 16状態Ergodic HMMの初期状態確率
    $\pi_0$ 0.00 $\pi_4$ 0.00 $\pi_8$ 0.00 $\pi_{12}$ 0.00
    $\pi_1$ 0.00 $\pi_5$ 0.00 $\pi_9$ 0.00 $\pi_{13}$ 0.00
    $\pi_2$ 0.89 $\pi_6$ 0.00 $\pi_{10}$ 0.00 $\pi_{14}$ 0.00
    $\pi_3$ 0.11 $\pi_7$ 0.00 $\pi_{11}$ 0.00 $\pi_{15}$ 0.00

    図 9.10: 16状態Ergodic HMMの解析結果
    \begin{figure}\begin{center}
\epsfile{file=Ergodic-HMM/Figure/16st-L-model.ps,width=140mm}
\end{center}\end{figure}

    16状態のErgodic HMMでは、状態数の少ないモデルに比べ、多くの状態遷移に おいて一つの品詞のみが出力され、状態遷移ごとの単語の出力の偏りが顕著に なっている。

    8状態に比べ、活用する品詞の記述がより細かくなり、また、2つの状態 (○ 2, ○ 3)で初期状態確率の値を持つなど、より複雑なネットワー クを形成している。

    8状態の場合と同様に、同一品詞が複数の遷移で出力される場合は、遷 移の起点か、または終点が同じ状態であることが多い。主に、ネットワー クの左の部分で「名詞+格助詞」などの主部が記述され、右の部分で 「動詞+助動詞」などの述部が記述されている。以下に16状態Ergodic HMMから抽出される特徴を品詞ごとに述べる。

    1. 間投詞、感動詞について

      間投詞、感動詞は、4、8状態の場合と同様に初期状態確率の高い状 態(○ 2, ○ 3)からの遷移で出力される。ただし、初期状 態確率は状態○ 2○ 3の2状態に値を持ち、初期状態確率 が最も高い状態○ 2での自己ループは見られない。

    2. 名詞について

      名詞は主として、○ 5, ○ 6, ○ 7から○ 1, ○ 9, ○ 12への遷移で出力されている。

      状態○ 6○ 7からの遷移では主として形式名詞が出力され、 状態○ 5からの遷移では、形式名詞以外の名詞が出力される。 このように普通名詞と形式名詞の分化がおきている。なお、 状態○ 5からの遷移では、出力確率が特に高い単語はなく、多 種類の普通名詞の単語がこの遷移で出力されている。

    3. 活用する品詞について

      8状態のErgodic HMMでは活用形でグループ化されていた。これに対 し16状態では品詞の基本形でもグループ化されている。本動詞は状 態○ 8○ 5からの遷移で、補助動詞は状態 ○ 0○ 4からの遷移で、助動詞は状態 ○ 0○ 11○ 13からの遷移でそれぞれ出力されている。

      本動詞は複数の遷移において出力されているが、主に ○ 8,○ 15からの遷移で出力される。しかし、各遷移によっ て出力される単語に違いが見られる。また、本動詞の中でも連用形 が他の活用形に比べ非常に高い。補助動詞は、○ 0,○ 4 からの遷移で出力される。本動詞と同様に連用形の出力が多く、助 動詞をともなうことが多い。また。状態○ 0から出力される単 語は表記が異なるものの意味的には「する」と同じものが多い。助 動詞は、遷移の起点となる状態によって全く異なるを出力しており、 8状態と同様に「です」「ます」がグループ化され、さらに16状態 では「た」「たい」が他の単語からグループ化して出力されている。

    4. 格助詞について

      格助詞は、主に名詞を出力した遷移の集まる状態 ○ 8○ 9○ 12からの遷移で出力される。 例を次に示す。8状態では同じ遷移で出力されていた「で」と「に」、 「が」と「を」が別々の遷移に分かれて出力されている。

      1. 状態○ 0$\Rightarrow$状態○ 8 「で」 (86%)
      2. 状態○ 1$\Rightarrow$状態○ 8 「に」 (87%)
      3. 状態○ 8$\Rightarrow$状態○ 15 「と」 (63%) 「お」 (28%)
      4. 状態○ 9$\Rightarrow$状態○ 5 「から」 (57%) 「で」 (23%)
      5. 状態○ 9$\Rightarrow$状態○ 7 「の」 (93%)
      6. 状態○ 12$\Rightarrow$状態○ 3 「は」(46%) 「ので」 (35%)
      7. 状態○ 12$\Rightarrow$状態○ 5 「が」 (55%) 「は」 (24%)
      8. 状態○ 12$\Rightarrow$状態○ 8 「を」 (75%)
      9. 状態○ 12$\Rightarrow$状態○ 12 「を」 (74%) 「について」 (24%)

    なお、付録C において、16状態Ergodic HMMから抽出される特徴 を品詞ごとに詳細に報告した。


next up previous contents
次へ: 文の平均尤度およびモデルのエントロピー 上へ: 実験結果 戻る: 実験結果   目次
Jin'ichi Murakami 平成13年1月5日