next up previous contents
次へ: 16状態Ergodic HMMの特徴 上へ: 確率的言語モデルによる自由発話認識に関する研究 戻る: 品詞の出現頻度   目次


8状態Ergodic HMMの特徴

ここでは第9.2章において得られた8状態Ergodic HMMから抽出される 細かい特徴を述べた。

  1. 間投詞、感動詞について

    図 B.1: 間投詞・感動詞の出力
    \begin{figure}\begin{center}
\epsfile{file=Ergodic-HMM/Figure/8st-L-model.kando.ps,width=150mm}
\end{center}\par\end{figure}

    8状態のErgodic HMMでも、2状態、4状態と同様に、間投詞や感動詞がイニシャ ルノード○ 0からの遷移(○ 0$\Rightarrow$○ 0, ○ 0○ 7$\Rightarrow$○ 7)で出力されている。これは、学習 データの特徴を表現していといえる。

    出力される主な単語を以下に示す。括弧内の数字は、シンボル出力確率である。

  2. 体言について

    図 B.2: 体言の出力
    \begin{figure}\begin{center}
\epsfile{file=Ergodic-HMM/Figure/8st-L-model.taigen.ps,width=150mm}
\end{center}\par\end{figure}

    図 9.9 では、複数の品詞を出力する遷移が見られ る。しかし、Ergodic HMMは活用する品詞、体言を分離し、別々の 遷移で出力している。体言は主として状態 ○ 0○ 3○ 7から状態 ○ 1○ 2に遷移する際に出力されている(図  B.2 参照)。出力されている単語は以下の通 りである。

    上記の単語以外でも、多くの状態遷移 において体言の単語が多数出力されているのが観測された。

    状態○ 3からの遷移では、形式名詞(ADDでは普通名詞として 扱っている)が他の名詞類よりもやや高い出力確率になっている。 また、○ 3$\Rightarrow$○ 1の遷移では準体助詞「ん」 と同様に用いられる準体助詞「の」が出力されている。

    状態○ 7からの遷移では、出力確率の合計では普通名詞が最も 高いが、個々の単語出力の上位は代名詞が多い。人に対して用いら れる名詞類が多く出力されていることもわかる。

    状態○ 0からの遷移では、主として形式名詞「方」が出力され ている。また、体言以外の単語では副詞の出力が多く見られた (○ 0$\Rightarrow$○ 1の遷移では、副詞「そう」の出力 確率25%である。)。これは、状態○ 1からの遷移で出力され る「です」や「でしょ」をともなって学習データに多く見られた 「そうです」「そうですか」などを表現しているため、文頭に当た る状態からの遷移で出力されていると考えられる。

    遷移によって出力される単語や品詞が異なり、複数ある体言を出力 する遷移でも、個々の表現する内容は異なっていることがわかる。

  3. 活用する品詞について

    8状態のErgodic HMMでは、活用する品詞が、品詞ごとではなく、活用 形ごとに集まって出力されている。連体形のものは状態○ 3 への遷移(○ 4,○ 1$\Rightarrow$○ 3)で(図  B.3 参照)、連用形のものは状 態○ 4への遷移 (○ 4, ○ 5,○ 6$\Rightarrow$○ 4)で(図  B.4 参照)、助動詞 の終止形は状態○ 6への遷移 (○ 1,○ 4,○ 5$\Rightarrow$ ○ 6)で(図  B.5 参照)、それぞ れ出力されている。以下に、活用形ごとに見られる特徴を述べる。

    1. 連体形

      図 B.3 に連体形の出力される遷移を 示し、以下にその遷移で出力される主な単語を示す。

      図 B.3: 連体形の出力
      \begin{figure}\begin{center}
\epsfile{file=Ergodic-HMM/Figure/8st-L-model.yougen.rentai.ps,width=150mm}
\end{center}\par\end{figure}

      • 状態○ 4$\Rightarrow$状態○ 3
        「いう」 (50%) 「た」 (26%) 「たい」 (10%) 以下 「思う」「ます」

      図 B.3 から連体形を出力して遷移 する先の状態○ 3は、連用形を出力する遷移と体言を出力する 遷移の節点になっていることがわかる。状態○ 3からの遷移で は、体言(形式名詞、準体助詞)が多く出力されていた。ここで、「〜 (と)いうこと」や「〜(し)たこと」、「〜(し)たいん(です)」など の「連体形+体言」の接続が表現されていると思われる。

    2. 連用形

      図 B.4 に連用形の出力される遷移を 示し、以下にその遷移で出力される主な単語を示す。

      図 B.4: 連用形の出力
      \begin{figure}\begin{center}
\epsfile{file=Ergodic-HMM/Figure/8st-L-model.yougen.renyou.ps,width=150mm}
\end{center}\par\end{figure}

      • 状態○ 4$\Rightarrow$状態○ 4
        「まし」 (50%) 「思い」 (23%) 以下 「申し」 「思っ」「いい」
      • 状態○ 5$\Rightarrow$状態○ 4
        「おり」 (15%) 「頂き」 (9%) 以下 「し」「ございまし」「頂い」
      • 状態○ 6$\Rightarrow$状態○ 4
        「し」 (64%) 「いたし」 (21%) 以下「申し上げ」「でき」
      • 状態○ 7$\Rightarrow$状態○ 6
        「願い」 (16%) 「送り」 (8%) 以下「待ち」「伺い」

      状態○ 4への遷移は連用形を出力するものが多く、状態○ 4からの遷 移は活用する品詞、接続助詞(○ 4$\Rightarrow$○ 5)を出力してい る。状態○ 4は連用形の単語と助動詞・補助動詞との節点と考えられる。 ○ 4$\Rightarrow$○ 4○ 6の遷移で、助動詞の「ます」「まし」が多く出力され、「〜思います」「〜おります」のような接続が考えられる。 ○ 4$\Rightarrow$○ 5の遷移では97%の確率で「て」が 出力され、「〜頂いて」「〜して」「思って」など活用する品詞の「連用形 $+$接続助詞 て」を表現している。

      ○ 7$\Rightarrow$○ 6の遷移で出力される単語の多くは、本動 詞で、○ 5$\Rightarrow$○ 7で出力される(出力確率34%)接頭辞 「お」と接続して、「お待ち(して)〜」「お願い(いたし)〜」などの謙譲表 現を形成している。

    3. 終止形

      図 B.5 に終止形の出力される遷移を示す。終 止形の単語の多くは助動詞である。これは、学習データの内容が会議に申し込みに 関する電話対話であるため、本動詞の言いきりの表現が少なく、「〜です」「〜 ます」などの助動詞をともなった丁寧な表現が多いためと考えられる。

      図 B.5: 終止形の出力
      \begin{figure}\begin{center}
\epsfile{file=Ergodic-HMM/Figure/8st-L-model.yougen.syuusi.ps,width=150mm}
\end{center}\par\end{figure}

      以下に終止形を出力する遷移で出力される主な単語を示す。

      • 状態○ 1$\Rightarrow$状態○ 6
        「です」 (94%)
      • 状態○ 4$\Rightarrow$状態○ 6
        「ます」 (69%) 「ます」 (助動詞連体形, 17%) 以下 「た」
      • 状態○ 5$\Rightarrow$状態○ 6
        「う」 (37%) 「ございます」 (14%) 「です」(7%) 以下 「ない」

      単語の出力をみると、「です」「ます」が分離して出力されているのがわかる。 体言から接続する「です」を出力する遷移が状態○ 1から遷移していて、 連用形の単語から接続する「ます」が状態○ 4から遷移の遷移で出力され ている。状態○ 1は体言を出力した遷移の集まる状態であり、連体形の単 語を出力した遷移は状態○ 4に集まっていることから、これらはいずれも 自然言語の文法に沿った接続を表現している。状態○ 5から遷移する「う」 は推量や意志の意味を持つ助動詞で、未然形の単語から接続する。状態 ○ 1$\Rightarrow$状態○ 5の遷移で助動詞の未然形「で しょ」が13%出力されており、「〜でしょう(か)」を表現している と考えられる。

  4. 格助詞の分離について

    図 B.6: 格助詞の出力
    \begin{figure}\begin{center}
\epsfile{file=Ergodic-HMM/Figure/8st-L-model.kakujosi.ps,width=150mm}
\end{center}\par\end{figure}

    体言を出力する遷移の集まる状態 ○ 2からの全ての遷移は、格助詞を出力している。

    (○ 2$\Rightarrow$○ 0,○ 4,○ 5,○ 7,図  B.6 参照)。体言を出力する遷移が集まるもう一つの 状態○ 1からの遷移も、格助詞や係助詞を出力している (○ 1$\Rightarrow$○ 5,○ 7)。この連鎖は「私は」「会議の」 など 名詞$+$格助詞・係助詞 を表現している。

    格助詞は複数の遷移で出力されている。しかし、後接する品詞の違い(文中で の機能の違い)によって各遷移は別々の格助詞を出力していることが、各遷移 の単語出力確率を調べた結果示された。


next up previous contents
次へ: 16状態Ergodic HMMの特徴 上へ: 確率的言語モデルによる自由発話認識に関する研究 戻る: 品詞の出現頻度   目次
Jin'ichi Murakami 平成13年1月5日