next up previous contents
次へ: まとめ 上へ: 単語を入力単位とした日本文文法の自動獲得 戻る: 初期パラメータの違いによるモデルの変化   目次


考察

  1. HMMによる文法の自動獲得の可能性

    学習後のErgodic HMMの解析結果からErgodic HMMが文法的な特徴を獲得してい ることや、text-open dataとtext-closed dataの尤度に大差がないことから、 Ergodic HMMを用いて、言語データを利用してBaum-Welchアルゴリズムでパラメータを学習することにより、 一般性のあるネットワーク文法が自動的に獲得できる可能性があると考えられ る。また、体言、活用する品詞、格助詞などの分離に見られることから、 Ergodic HMMは、従来の品詞より詳細な単語のカテゴリーを獲得する能力もあ ると思われる。

    また、Ergodic HMMの状態数を増加させることにより、カテゴリーごとに、精 密に分類されたのをはじめ、他の品詞でも状態数を増やすことで、より精密に 分離して出力された。モデルのエントロピーも状態数を増やすことで改善され ることも実験結果から明らかになった。したがって、今後さらに状態数を多く することにより、エントロピーが小さくなり、モデルの表現能力も高くなるこ とが予想され、より詳細な文法・単語のカテゴリーを獲得できると思われる。

  2. 認識実験の結果

    学習されたErgodic-HMMを言語モデルとして、連続音声認識実験を行った結果、 text-open data、text-closed dataともに、言語モデルを用いない場合より高 い認識率が得られた。これは、Ergodic HMMによって得られた文法は音声認識 のための言語モデルとして有効であることを示している。

    しかし、認識率はHMMの初期モデルによって異なる値を示す。したがって初 期状態を変えたモデルについて認識実験を行なう必要がある (9.2.5.3節参照)。また、認識時に言語モデルから 計算される接続確率につける重みの最適値の決め方も問題が残っている。

  3. 学習データ量

    本研究では、Ergodic HMMを用いて、大量のテキストデータを使用し Baum-Welch アルゴリズムでパラメータを学習をすることで、文法および単語カテゴリーを獲得し表現する能 力があることが示された。しかし、本研究で使用した 学習データ量はまだ不十分であると思われる。

    8状態のErgodic HMMにodd4000 を学習させた場合を例にとると、8状態Ergodic HMMが持つパラメータ数は、初 期状態確率が8個、状態遷移確率が64個(=8状態×8状態)、シンボル出力確率 が410752個(=8状態×8状態×6418単語)で合計410752個である。これに対し、 odd4000の総単語数は57354個であった。

    HMMのパラメータの推定に必要な学習データ量の明確な基準はないが、推定す べきパラメータの数に対し、推定に用いられる学習データが十分でないと考え られる。したがって、パラメータを精度良く推定するには、さらに学習データ 量を増やす必要があると思われる。

  4. 初期モデル

    本研究で行なった実験では、状態数の異なる4種の状態遷移出力型のErgodic HMMを用いたが、状態数が多いほどエントロピーが改善され、またErgodic HMM の構造解析の結果からも、より良いモデルを得ていていることがわかった。し かし、最適な状態数の推定方法が未解決の問題として残る。

    また、状態数が同じ場合でも、Ergodic HMMのパラメータの初期値を変えた学 習の実験結果から、初期値によって異なるモデルを生成することがわかった。 これはBaum-Welchアルゴリズムがローカルミニマムに収束するのが原因 である。また、パラメータ数、学習データ量が多くなるとパラメータ推定に膨 大な計算量がかかり、初期モデルによって収束するまでにかかる学習回数が異 なることが予想される。

    効率の良い学習法、最適な初期値の決定法は今のところ知られていないが、考 えられる有効な一つの方法として、いくつかの初期モデルに適当に学習を繰り 返した後に、文の尤度やエントロピーを計算し、結果の良好なものについて学 習を続行する方法などが考えられる。

  5. 学習データの品詞に関する問題点

    本研究で用いた言語データは単語の表記が同一なものでも品詞や活用形の異な る場合、異なるラベルを付与した(9.2.2節参照)。 これにより単語に品詞情報が加わると考えられる。したがって``品詞情報のな い単語列からの文法および単語カテゴリーの自動獲得''の可能性を正確に検証 するためには、同一表記の単語には同じラベルをつけたデータをHMMに学習さ せる実験を行なう必要があると思われる。

  6. 学習データの分布

    本研究では、 9.2.2 節で説明したように、言 語データベースを奇数偶数の2setに分け、それぞれ先頭から1000 文, 2000文, 4000文をdata setとした。表  9.9 から、evenとoddでは構成単語数に大 差はない。しかし、データの前半部分と後半部分で対話文の長さに 違いがあることがわかる。表  9.22 にodd4000の前半と後半の 2000文、odd1000, odd4000のデータを示す。(前半2000文はodd2000 と同じ。)


    表 9.22: 構成単語数2
    set odd1000 odd2000 odd4000の後半2000文 odd4000
    文数 1000 2000 2000 4000
    単語数 13299 20730 36624 57354
    文平均単語数 13.30 10.37 18.31 14.34
    最大単語数 99 99 128 128

    表 9.22 から、前半後半で構成 単語数がかなり異なり、後半部分の一文あたりの単語長が前半部分 の約2倍になっている。

    odd1000,odd2000は文平均単語数がodd4000に比べ少ない。表  A.7 を見ると、odd2000では「はい」 「もしもし」などの一単語のみ の文の割合が19.95%でodd1000(12.70%), odd4000 (15.25%)に比べ多く含まれ、odd2000で (odd1000に)新たに加わった文の中に30単語以上の文が5文で非常に 少ない。odd2000では30単語を越える長い文の比率が odd1000,odd4000に比べ小さくなっている。ま た、odd1000では一単語の文はそれほどないが、3単語、4単語の短 い文の比率が高く、逆にodd4000では長い文が多く含まれている。

    以下に8状態のErgodic HMMにodd1000, odd2000を学習させた場合の 解析結果を図 9.18 、図  9.19 に示す。(odd4000を学習させたもの は図 9.9 参照。)

    これらの図から、一単語の文が多く含まれるodd2000で学習したHMMは、状態○ 1での自己ルー プでの感動詞の出力が他のHMMに比べて高く、odd4000で学習したHMMでは感動 詞の出力とともに自己ループの遷移確率も低くなっている。学習データ量が異 なるので学習データの性質の違いによるものかどうかは不明であるが、ネット ワークの形態そのものもかなり異なっている。

    1000文、2000文のsetを作成する際に、odd、evenそれぞれの4000文の全体から 4の倍数番目、2の倍数番目のように全体から均一に抽出すれば、このような data setによる文の性質の違いを緩和できたと思われる。

    図 9.18: odd1000を学習させた8状態Ergodic HMM
    \begin{figure}\begin{center}
\epsfile{file=Ergodic-HMM/Figure/8st-L-model-1000.ps,width=140mm}
\end{center}\end{figure}

    図 9.19: odd2000を学習させた8状態Ergodic HMM
    \begin{figure}\begin{center}
\epsfile{file=Ergodic-HMM/Figure/8st-L-model-2000.ps,width=140mm}
\end{center}\end{figure}


next up previous contents
次へ: まとめ 上へ: 単語を入力単位とした日本文文法の自動獲得 戻る: 初期パラメータの違いによるモデルの変化   目次
Jin'ichi Murakami 平成13年1月5日