2つの文節集合(SET1・SET2)の文節内の形態素連鎖の品詞を状態 数の異なる(2状態, 5状態, 8状態, 10状態)Ergodic HMMでモデル化した。
SET1・SET2の各文節データは、 形態素連鎖の品詞列のみをモデル化のデータとした。 (文節の開始記号及び終了記号は付加していない。) また、任意の状態で遷移が開始・終了できるようなモデルとした。 (HMMに開始状態及び終了状態を指定していない。)
HMMによるモデルの抽出には、Baum-Welchアルゴリズムを用いた。Baum-Welch アルゴリズムを用いた場合、再推定の回数の判定が問題となる。再推定回数の 基準として、尤度 がある一定値に収束するまで再推定を繰り返す方法をとった。
ErgodicモデルHMMは、自由度が大きいためにモデル化によって得られたパラ メータが初期状態によって大きく左右される。この初期状態の揺らぎによる パラメータの変化を考慮して初期状態の異なるHMMで実験を複数回行なった。
データの規模とモデル化の関係を調べるため、文節集合の大きさ(データの先 頭から100, 1000, 10000)を変えながら状態数の異なる(2状態, 5状態, 8状態, 10状態) HMMでのモデル化実験を行なった。
実験はSET1のデータをモデル化の対象とした。テストデータは、学習デー タに対してクローズなセットになっている。
尤度の変化がに収束するのを再推定の打ち切り条件として10回ずつ モデル化を繰りかえし、各実験ごとにエントロピーを算出、平均した。
表 9.2に各データサイズにおけるモデルのエントロピーを 示す。この結果エントロピーは、状態数の増加によって単調に減少するので はなく、ある状態数(100文節、1000文節では8状態、10000文節では10状態)で 最小になることがわかる。また全般的に文節データ数の増加に従ってデータ のバリエーションが増加するためモデルのエントロピーが上昇するが、品詞 パターンの生成確率などを個別に分析するとデータ数の増加によって尤度が 改善される結果が示された。
次にタスクの変化とモデル化の関係を調べるため、2つのタスク(SET1・ SET2)をそれぞれ状態数の異なる(2状態, 5状態, 8状態, 10状態) HMM でモデル化した。 実験はSET1・SET2の全てのデータをモデル化の対象とした。 実験は、HMMの各状態数について、尤度の変化がに収束するのを再 推定の打ち切り条件として初期状態を変えて10回ずつモデル化を繰り返した。
このようにして算出した結果の平均値を表 9.3に示す。エン トロピーは、状態数の増加によって単調に減少せず、タスクの雑さや種類に応じてある状態数で最小となっていることがわかる。