next up previous contents
次へ: この文書について... 上へ: 確率的言語モデルによる自由発話認識に関する研究 戻る: 8状態Ergodic HMMの特徴   目次


16状態Ergodic HMMの特徴

ここでは第9.2章において得られた16状態Ergodic HMMから抽出される 細かい特徴を述べた。

  1. 間投詞、感動詞について

    図 C.1 に間投詞・感動詞を出力する 遷移を示す。間投詞、感動詞は2、4、8状態の場合と同様で、初期 状態確率の高い状態(○ 2, ○ 3)からの遷移で出力される。

    図 C.1: 間投詞・感動詞の出力
    \begin{figure}\begin{center}
\epsfile{file=Ergodic-HMM/Figure/16st-L-model.kantousi.ps,width=150mm}
\end{center}\par\end{figure}

    状態数の少ない場合と異なり、初期状態確率が最も高い状態 ○ 2での自己ループが見られない。初期状態確率が状態 ○ 2○ 3の2状態が値を持つことと考え合わせると、 8状態の場合にイニシャルノードからの遷移で表現していたものを、16状態で は2つの状態からの遷移で表現していると考えられる。

  2. 体言について

    図 C.2 に体言が出力される遷移を示 す。

    図 C.2: 体言の出力
    \begin{figure}\begin{center}
\epsfile{file=Ergodic-HMM/Figure/16st-L-model.taigen.ps,width=150mm}
\end{center}\par\end{figure}

    体言は主として、○ 5, ○ 6, ○ 7から○ 1, ○ 9, ○ 12への遷移で出力されている。 主に出力されているのは以下の単語である。

    遷移の起点となる状態によって出力される単語が異なり、状態 ○ 6○ 7からの遷移では主として形式名詞が出力され、状 態○ 5からの遷移では、形式名詞以外の名詞が出力される。形 式名詞を出力する遷移でも、普通名詞は出力されるが、8状態の場 合と比べ出力確率の差が大きく、普通名詞と形式名詞の分離が著し い。

    状態○ 5からの遷移では、出力確率が特に高い単語はなく、多 種類の普通名詞の単語がこの遷移で出力され、全体の和が他の品詞 よりも高くなっている。これはErgodic HMMが学習によって、単語 のカテゴリーを獲得していることを示している。

  3. 活用する品詞について (品詞から見た分析結果)

    図 C.3 に活用する品詞が出力される遷移を示 す。4状態のErgodic HMMでは、活用する単語が品詞・活用形に関係なく同じ遷 移で出力され、8状態のErgodic HMMでは、活用形が同じ単語が品詞に関わりな く同じ遷移に出力されていた。これに対し、図  C.3 〜図  C.3 を見ると16状態ではさらに細 かく分類して品詞の異なるものを別々の遷移で出力している。本動 詞は状態○ 8○ 5からの遷移で、補助動詞は状態 ○ 0○ 4からの遷移で、助動詞は状態 ○ 0○ 11○ 13からの遷移でそれぞれ出力されている。 これは、状態数が増えるにしたがい、単語の分類がより詳細になっ ていくことを示している。以下では各品詞ごとに出力される単語を 示し、考えられる単語連鎖や特徴を述べる。

    図 C.3: 本動詞の出力
    \begin{figure}\begin{center}
\epsfile{file=Ergodic-HMM/Figure/16st-L-model.hondousi.ps,width=150mm}
\end{center}\par\end{figure}

    1. 本動詞

      本動詞は、主に○ 8,○ 15からの遷移で出力される(図  C.3 参照)。複数の遷移で本動詞が出力され ているが、各遷移によって出力される単語に違いが見られ、次のよ うな単語が出力されている。

      • 状態○ 8$\Rightarrow$状態○ 11
        「なり」 (21%) 「つき」 (10%) 以下「関し」「致し」
      • 状態○ 8$\Rightarrow$状態○ 13
        「なっ」 (21%) 「し」 (14%) 以下「関し」「送っ」「書い」
      • 状態○ 12$\Rightarrow$状態○ 13
        「し」 (21%) 「持っ」 (10%) 以下「でし」「送っ」
      • 状態○ 15$\Rightarrow$状態○ 0
        「願い」 (28%) 「送り」 (13%) 「待ち」 (11%) 「伺い」 (8%)
      • 状態○ 15$\Rightarrow$状態○ 6
        「いう」 (94%)
      • 状態○ 15$\Rightarrow$状態○ 11
        「思い」(60%) 「申し」 (14%) 「し」 (12%) 以下「いい」
      • 状態○ 15$\Rightarrow$状態○ 13
        「いっ」 (55%) 「思っ」 (24%) 以下「し」「なっ」「考え」

      本動詞は、連用形の単語の出力が他の活用形に比べ非常に高く、言 い切り(終止形)や体言への接続よりも、助動詞、補助動詞をとも なうことが多いことがわかる。

      意志を伝える本動詞「いう」「思う」などが状態○ 15から出力 され、状態○ 8からは「〜になる」など格助詞「に」に続く本動 詞が多く出力されている。

      また、8状態で見られた「お願い(いたし)〜」などの接頭辞「お」 をともなう謙譲表現が16状態でも見られ、状態 ○ 8$\Rightarrow$○ 15の遷移で出力される接頭辞「お」 に状態○ 15$\Rightarrow$状態○ 0で出力される本動詞が 接続すると考えられる。

    2. 補助動詞

      図 C.4 に補助動詞の出力される遷 移を示す。

      図 C.4: 補助動詞の出力
      \begin{figure}\begin{center}
\epsfile{file=Ergodic-HMM/Figure/16st-L-model.hojodousi.ps,width=150mm}
\end{center}\par\end{figure}

      補助動詞は、○ 0,○ 4からの遷移で出力されている。 出力されている単語を以下に示す。

      • 状態○ 0$\Rightarrow$状態○ 1
        「さ」 (66%) 「ください」 (11%) 以下「し」
      • 状態○ 0$\Rightarrow$状態○ 11
        「いたし」 (44%) 「し」 (38%) 以下「でき」「申し上げ」
      • 状態○ 0$\Rightarrow$状態○ 13
        「し」 (77%) 「ございまし」 (19%)
      • 状態○ 4$\Rightarrow$状態○ 7
        「いる」 (34%) 「る」 (14%) 「いただける」 (11%) 以下「ない」
      • 状態○ 4$\Rightarrow$状態○ 11
        「おり」 (51%) 「いただき」 (28%) 以下「いただけ」
      • 状態○ 4$\Rightarrow$状態○ 13
        「いただい」(62%) 「しまっ」 (28%) 以下「き」「行」

      本動詞と同様に連用形の出力が多く、助動詞をともなうことが多い のがわかる。状態○ 0から出力される単語は表記が異なるもの の意味的には「する」と同じものが多い。

    3. 助動詞

      図 C.5 に助動詞を主力する遷移を示 す。

      図 C.5: 助動詞の出力
      \begin{figure}\begin{center}
\epsfile{file=Ergodic-HMM/Figure/16st-L-model.jodousi.ps,width=150mm}
\end{center}\par\end{figure}

      助動詞は、主に○ 10,○ 11,○ 13からの遷移で出力され る。各遷移での単語の出力を以下に示す。

      • 状態○ 1$\Rightarrow$状態○ 13 「せ」 (36%) 「し」 (23%) 「れ」 (22%)
      • 状態○ 10$\Rightarrow$状態○ 1 「で」 (93%)
      • 状態○ 10$\Rightarrow$状態○ 2 「です」 (97%)
      • 状態○ 10$\Rightarrow$状態○ 11 「でしょ」 (96%)
      • 状態○ 10$\Rightarrow$状態○ 14 「です」 (100%)
      • 状態○ 11$\Rightarrow$状態○ 2 「ます」 (99%)
      • 状態○ 11$\Rightarrow$状態○ 10 「ます」(98%)
      • 状態○ 11$\Rightarrow$状態○ 12 「ます」 (97%)
      • 状態○ 11$\Rightarrow$状態○ 13 「まし」 (99%)
      • 状態○ 11$\Rightarrow$状態○ 14 「ます」 (58%) 「う」 (41%)
      • 状態○ 13$\Rightarrow$状態○ 7 「た」 (87%) 「たい」 (13%)
      • 状態○ 13$\Rightarrow$状態○ 8 「た」 (67%) 「たい」 (13%)

      遷移の起点となる状態によって全く異なる助動詞を出力しており、8状態と同 様に「です」「ます」が分離され、さらに16状態では「た」「たい」が他の単 語から分離して出力されている(8状態では本動詞「いう」と同じ遷移で出力さ れていた)。また、8状態の場合には連体形と連用形の「ます」が同一遷移で出 力されていたが、上記の出力確率から、「です」も「ます」も活用形ごとに明 確に分離されていることがわかる。これらのことから、HMMの状態数が増える ことによって品詞分類が細分化されることがわかる。

  4. 活用する品詞について (活用形から見た分析結果)

    活用する単語の活用形ごとの出力を以下に示す。

    1. 連体形

      図 C.6 に連体形の単語が出力される 遷移を示す。

      図 C.6: 連体形の出力
      \begin{figure}\begin{center}
\epsfile{file=Ergodic-HMM/Figure/16st-L-model.rentai.ps,width=150mm}
\end{center}\par\end{figure}

      8状態の場合と同じく、主として体言を出力する状態 ○ 6○ 7への遷移で出力される。助動詞連体形の「ます」 は(体言をほとんど出力していない)状態○ 12への遷移で出 力されている。ネットワーク上には現れないが、状態 ○ 12$\Rightarrow$状態○ 2○ 3で接続助詞「ので」 が出力されており、これに接続するものと思われる。

    2. 連用形

      連用形が出力される遷移を図 C.7 に 示す。

      図 C.7: 連用形の出力
      \begin{figure}\begin{center}
\epsfile{file=Ergodic-HMM/Figure/16st-L-model.renyou.ps,width=150mm}
\end{center}\par\end{figure}

      図 C.7 から、活用する品詞間 の接続の様子がわかる。「(お)願いいたします」のような「本動詞 +補助動詞+助動詞」は状態○ 15$\Rightarrow$○ 0で本 動詞を出力し、さらに状態○ 11○ 13の助動詞を出力する 状態へと遷移すると考えられる。また補助動詞をともなわない「本 動詞+助動詞」のような場合は、状態○ 8○ 15 $\Rightarrow$ 状態○ 11○ 13のように遷移すると思われ る。

      また、8状態で見られた、「〜いただいて」「思って」などの「連用形+ 接続助詞 て」の連鎖が、状態○ 4$\Rightarrow$状態 ○ 13$\Rightarrow$状態○ 4で見られる。

    3. 終止形

      終止形を出力する遷移を図 C.8 に示 す。

      図 C.8: 終止形の出力
      \begin{figure}\begin{center}
\epsfile{file=Ergodic-HMM/Figure/16st-L-model.syuusi.ps,width=150mm}
\end{center}\par\end{figure}

      8状態と同じく終止形は助動詞がほとんどであり、終助詞や接続助 詞、間投詞を出力し文を終了あるいは文節頭に接続する状態 ○ 10○ 14○ 2への遷移で出力される。

  5. 格助詞について

    格助詞の出力は、8状態Ergodic HMMと同様に、主に体言を出力した 遷移の集まる状態○ 8○ 9○ 12からの遷移で出力される。

    図 C.9: 格助詞の出力
    \begin{figure}\begin{center}
\epsfile{file=Ergodic-HMM/Figure/16st-L-model.kakujosi.ps,width=150mm}
\end{center}\par\end{figure}

    8状態では同じ遷移で出力されていた「で」と「に」、「が」と 「を」が別々の遷移に分かれて出力され、ここでも、状態数が増え ることによって単語が細かく分類されていることがわかる。


next up previous contents
次へ: この文書について... 上へ: 確率的言語モデルによる自由発話認識に関する研究 戻る: 8状態Ergodic HMMの特徴   目次
Jin'ichi Murakami 平成13年1月5日