next up previous contents
次へ: 実験結果 上へ: 単語を入力単位とした日本文文法の自動獲得 戻る: 言語データ   目次


Ergodic HMMを用いた確率つきネットワーク文法の自動獲得の実験

前節で作成した対話データset odd1000, odd2000, odd4000 をErgodic HMMの 学習データとして使用して、HMMの状態数を変えて、 Ergodic HMMを用いた確率つきネットワーク文法の自動獲得の実験 を行なった。

なお、実験に用いた Ergodic HMMは 任意の状態から状態遷移を開始し、任意の状態で終了できるモデルで ある。学習を始める際のモデルのパラメータ$ A, B, \Pi $の初期値を以下に 示す。


\begin{displaymath}
\Pi : \pi_i = 1/N ,
A : a_{ij} = random ,
B : b_{ij}(v_k) = random
\end{displaymath} (9.5)

ただし、 $1 \leq i,j \leq N$, $1 \leq k \leq L$ , $ \sum_{j=1}^N a_{ij} = 1.0 $, $ \sum_{k=1}^L b_{ij}(v_k) = 1.0 $
$N$ : 状態数, $L$ : 語彙数(単語の種類)

また、モデルがシンボル系列を生 成する確率の上昇率

\begin{displaymath}\frac{\mbox{学習後の尤度}-\mbox{前回の学習後の尤度}}
{\mbox{学習後の尤度}} \end{displaymath}

がある一定値以下になったとき、 HMMの学習を終了させた。

実験は、状態数の異なる4種類のErgodic HMM(2状態、4状態、8状態、 16状態)の場合について行なった。学習データはodd1000, odd2000, odd4000を用いた(16状態はodd4000のみ)。また、初期パラメータを 変えた場合のモデル化の変化を研究するため、初期状態の異なる8種 の8状態のErgodic HMMについて、再推定回数20回を学習終了条件と してodd4000を学習させた。その他の実験の条件を表  9.10 に示す。


表 9.10: 言語モデル生成実験の条件
HMMの構造 状態遷移出力型Ergodic HMM
HMMの状態数 2状態,4状態,8状態,16状態
HMMの出力シンボル 単語
開始$\cdot $終了状態 任意
初期状態遷移確率 ランダム
初期シンボル出力確率 ランダム
初期状態確率 均等
語彙数 6418
学習データ set odd4000,odd2000,odd1000
学習データ数 4000文,2000文,1000文
単語総数 57354単語,20730単語,13299単語
学習終了条件 尤度上昇率1%未満




Jin'ichi Murakami 平成13年1月5日