ここでは第9.2章において得られた8状態Ergodic HMMから抽出される 細かい特徴を述べた。
8状態のErgodic HMMでも、2状態、4状態と同様に、間投詞や感動詞がイニシャ ルノード○ 0からの遷移(○ 0○ 0, ○ 0○ 7○ 7)で出力されている。これは、学習 データの特徴を表現していといえる。
出力される主な単語を以下に示す。括弧内の数字は、シンボル出力確率である。
図 9.9 では、複数の品詞を出力する遷移が見られ る。しかし、Ergodic HMMは活用する品詞、体言を分離し、別々の 遷移で出力している。体言は主として状態 ○ 0○ 3○ 7から状態 ○ 1○ 2に遷移する際に出力されている(図 B.2 参照)。出力されている単語は以下の通 りである。
上記の単語以外でも、多くの状態遷移 において体言の単語が多数出力されているのが観測された。
状態○ 3からの遷移では、形式名詞(ADDでは普通名詞として 扱っている)が他の名詞類よりもやや高い出力確率になっている。 また、○ 3○ 1の遷移では準体助詞「ん」 と同様に用いられる準体助詞「の」が出力されている。
状態○ 7からの遷移では、出力確率の合計では普通名詞が最も 高いが、個々の単語出力の上位は代名詞が多い。人に対して用いら れる名詞類が多く出力されていることもわかる。
状態○ 0からの遷移では、主として形式名詞「方」が出力され ている。また、体言以外の単語では副詞の出力が多く見られた (○ 0○ 1の遷移では、副詞「そう」の出力 確率25%である。)。これは、状態○ 1からの遷移で出力され る「です」や「でしょ」をともなって学習データに多く見られた 「そうです」「そうですか」などを表現しているため、文頭に当た る状態からの遷移で出力されていると考えられる。
遷移によって出力される単語や品詞が異なり、複数ある体言を出力 する遷移でも、個々の表現する内容は異なっていることがわかる。
8状態のErgodic HMMでは、活用する品詞が、品詞ごとではなく、活用 形ごとに集まって出力されている。連体形のものは状態○ 3 への遷移(○ 4,○ 1○ 3)で(図 B.3 参照)、連用形のものは状 態○ 4への遷移 (○ 4, ○ 5,○ 6○ 4)で(図 B.4 参照)、助動詞 の終止形は状態○ 6への遷移 (○ 1,○ 4,○ 5 ○ 6)で(図 B.5 参照)、それぞ れ出力されている。以下に、活用形ごとに見られる特徴を述べる。
図 B.3 に連体形の出力される遷移を 示し、以下にその遷移で出力される主な単語を示す。
図 B.3 から連体形を出力して遷移 する先の状態○ 3は、連用形を出力する遷移と体言を出力する 遷移の節点になっていることがわかる。状態○ 3からの遷移で は、体言(形式名詞、準体助詞)が多く出力されていた。ここで、「〜 (と)いうこと」や「〜(し)たこと」、「〜(し)たいん(です)」など の「連体形+体言」の接続が表現されていると思われる。
図 B.4 に連用形の出力される遷移を 示し、以下にその遷移で出力される主な単語を示す。
状態○ 4への遷移は連用形を出力するものが多く、状態○ 4からの遷 移は活用する品詞、接続助詞(○ 4○ 5)を出力してい る。状態○ 4は連用形の単語と助動詞・補助動詞との節点と考えられる。 ○ 4○ 4○ 6の遷移で、助動詞の「ます」「まし」が多く出力され、「〜思います」「〜おります」のような接続が考えられる。 ○ 4○ 5の遷移では97%の確率で「て」が 出力され、「〜頂いて」「〜して」「思って」など活用する品詞の「連用形 接続助詞 て」を表現している。
○ 7○ 6の遷移で出力される単語の多くは、本動 詞で、○ 5○ 7で出力される(出力確率34%)接頭辞 「お」と接続して、「お待ち(して)〜」「お願い(いたし)〜」などの謙譲表 現を形成している。
図 B.5 に終止形の出力される遷移を示す。終 止形の単語の多くは助動詞である。これは、学習データの内容が会議に申し込みに 関する電話対話であるため、本動詞の言いきりの表現が少なく、「〜です」「〜 ます」などの助動詞をともなった丁寧な表現が多いためと考えられる。
以下に終止形を出力する遷移で出力される主な単語を示す。
単語の出力をみると、「です」「ます」が分離して出力されているのがわかる。 体言から接続する「です」を出力する遷移が状態○ 1から遷移していて、 連用形の単語から接続する「ます」が状態○ 4から遷移の遷移で出力され ている。状態○ 1は体言を出力した遷移の集まる状態であり、連体形の単 語を出力した遷移は状態○ 4に集まっていることから、これらはいずれも 自然言語の文法に沿った接続を表現している。状態○ 5から遷移する「う」 は推量や意志の意味を持つ助動詞で、未然形の単語から接続する。状態 ○ 1状態○ 5の遷移で助動詞の未然形「で しょ」が13%出力されており、「〜でしょう(か)」を表現している と考えられる。
体言を出力する遷移の集まる状態
○ 2からの全ての遷移は、格助詞を出力している。
(○ 2○ 0,○ 4,○ 5,○ 7,図 B.6 参照)。体言を出力する遷移が集まるもう一つの 状態○ 1からの遷移も、格助詞や係助詞を出力している (○ 1○ 5,○ 7)。この連鎖は「私は」「会議の」 など 名詞格助詞・係助詞 を表現している。
格助詞は複数の遷移で出力されている。しかし、後接する品詞の違い(文中で の機能の違い)によって各遷移は別々の格助詞を出力していることが、各遷移 の単語出力確率を調べた結果示された。