next up previous
次へ: タスクの変化とモデル化の関係 上へ: HMMによるモデル化 戻る: モデル化実験

データの規模とモデル化の関係

データの規模とモデル化の関係を調べるため、 文節集合の大きさ(データの先頭から100, 1000, 10000) を変えながら状態数の異なる(2状態, 5状態, 8状態, 10状態) HMMでのモデル化実験を行なう。

実験はSET1のデータをモデル化の対象とした。 モデル化データは、検証データに対してクローズなセットになっている。

尤度の変化が$10^{-5}$に収束するのを再推定の打ち切り条件として 10回ずつモデル化を繰りかえし、 各実験ごとにエントロピーと検証データに対するcoverage(括弧内)を算出、 平均した。


表 2: データの規模とモデル化の関係
SET1
状態数 2 5 8 10
100文節 (coverage = 3.87$\%$) 3.06 (85.1$\%$) 2.33 (84.6$\%$) 2.05 (84.7$\%$) 2.08 (84.7$\%$)
1000文節 (coverage = 17.3$\%$) 3.17 (100$\%$) 2.39 (100$\%$) 2.05 (100$\%$) 2.30 (100$\%$)
10000文節 (coverage = 58.2$\%$) 3.29 (100$\%$) 2.50 (100$\%$) 2.47 (100$\%$) 2.38 (100$\%$)


2に 各データサイズにおけうモデルのエントロピーと coverage(生成確率が0.0とならないパターンの割合(括弧内))を示す。

データ不足によるモデルのcoverage低下は、 状態数の増加によっても改善されなかった。 その一方、データの不足が そのままモデルのcoverage低下を引き起こすわけではないことも 1000文節のモデル化結果(データのcoverage = 17.3$\%$に対し モデルのcoverage = 100.0$\%$)から明らかになった。 これは、 小規模データに対するスムージングなど ergodicHMMのモデル化能力の高さの現れと考えられる。 また、 エントロピーは、 状態数の増加によって単調に減少するのではなく、 ある状態数(8状態)で最小になることがわかる。 これはタスクに応じたある状態数で 情報量を最小にするような モデルの最適化が生じていることを示している。

全般的に文節データ数の増加に従ってモデルのエントロピーが 上昇するが、 品詞パターンの生成確率などを個別に分析すると データ数の増加によって尤度が改善される結果が示された。



Jin'ichi Murakami 平成13年10月5日