本節では学習終了後のErgodic HMMに文(単語列)を入力し、HMMが入力された 文を出力する確率(尤度)を計算した。HMMの学習に用いたBaum-Welch アルゴリズムは、尤度(入力データの生成確率)を最大にするようにパラメータ を調整する。そこで、学習していないデータ(text-open data)の尤度と学習デー タ(text-closed data)の尤度と比較することにより、Ergodic HMMが獲得した 文法の一般性を調べた。
言語モデル生成実験で得られたErgodic HMMがtext-closed dataおよび text-open dataを生成する一文あたりの平均対数確率を、forward probability (2.1.4節参照) を用いて計算した。なお、単語の出力確率がの場合はでフロア リングした。
計算方法を簡単な例で図 9.11 に示す。
例えば、出力シンボルがxとyの2状態Ergodic HMMの学習終了後の 各パラメータが図 9.11 のようになってると する。このHMMが``xxy''を生成する確率について以下に述べる。
以上の手順で求められた尤度の対数値の和を求め、一文当たり の平均を求めたものを平均尤度とした。
本節では、言語モデルの評価基準としてエントロピーを用いた(2.1.10節参照)。
エントロピーはモデルの複雑さを表す指標である。あるモデル の
エントロピーが ならば次のシンボルを決定するのに、平均
回の yes/no の質問を繰り返す必要がある。いい換えれ
ば、
個の等出現確率のシンボルの中から一つのシンボルを
決定することになる。すなわち、エントロピーが大きいほど、モデルは複雑で
あるといえる。
odd4000を学習させた各状態数のErgodic HMMについて text-open data、text-closed dataそれぞれ4000文の尤度を求め、一文当たりの平均 とHMMのエントロピーを計算した結果を表 9.17 ,図 9.12 , 図 9.13 に示す。
表 9.17 ,図 9.12 ,図 9.13 から、HMMの状態数が多くなるにしたがいエントロピーが減少しているのがわかる。
一方、Ergodic HMMを解析した結果、状態数が増えることによって、シンボル 出力確率の分布の偏りが大きくなることが観測された。つまり、状態数が増え ることによって、一つの遷移で出力される単語の分布の偏りが大きくなり、そ のためエントロピーが下がると思われる。
また、状態数が増すにつれて、text-closed dataとtext-open dataの平均尤度 の差が開くことがわかる。この原因として、text-open dataにtext-closed dataに存在しない単語(未知語)が多数含まれていることが考えられる。実際 の調査でもeven4000には未知語を含む文が990文あった。
ここでは、学習データ量を変化させたときの、平均尤度およびエントロピーの 変化を研究した。2状態、4状態、8状態のErgodic HMMにodd1000、odd2000、 odd4000を学習させた結果について、text-open dataの平均尤度を計算した。 なお、テストデータとしてeven4000を用いて平均尤度を求めた結果を表 9.18 、図 9.14 に示す。また、合わせて 各学習データ量におけるモデルのエントロピーを表 9.18 に示す。
状態数 | 学習データ | テストデータ | 平均尤度 | エントロピー |
odd1000 | even4000 | -82.60 | 7.20 | |
2 | odd2000 | even4000 | -80.43 | 7.22 |
odd4000 | even4000 | -77.37 | 7.53 | |
odd1000 | even4000 | -77.33 | 6.35 | |
4 | odd2000 | even4000 | -75.22 | 6.34 |
odd4000 | even4000 | -71.30 | 6.72 | |
odd1000 | even4000 | -76.31 | 5.58 | |
8 | odd2000 | even4000 | -73.35 | 5.59 |
odd4000 | even4000 | -67.48 | 6.00 |
表 9.18 、図 9.14 から、全てのHMMで学習デー タを増加すると、text-open dataの平均尤度が高くなることが示された。また、 データ数の増加にともないエントロピーが増加することも示された。