実験はSET1のデータをモデル化の対象とした。 モデル化データは、検証データに対してクローズなセットになっている。
尤度の変化がに収束するのを再推定の打ち切り条件として 10回ずつモデル化を繰りかえし、 各実験ごとにエントロピーと検証データに対するcoverage(括弧内)を算出、 平均した。
表 2に 各データサイズにおけうモデルのエントロピーと coverage(生成確率が0.0とならないパターンの割合(括弧内))を示す。
データ不足によるモデルのcoverage低下は、 状態数の増加によっても改善されなかった。 その一方、データの不足が そのままモデルのcoverage低下を引き起こすわけではないことも 1000文節のモデル化結果(データのcoverage = 17.3に対し モデルのcoverage = 100.0)から明らかになった。 これは、 小規模データに対するスムージングなど ergodicHMMのモデル化能力の高さの現れと考えられる。 また、 エントロピーは、 状態数の増加によって単調に減少するのではなく、 ある状態数(8状態)で最小になることがわかる。 これはタスクに応じたある状態数で 情報量を最小にするような モデルの最適化が生じていることを示している。
全般的に文節データ数の増加に従ってモデルのエントロピーが 上昇するが、 品詞パターンの生成確率などを個別に分析すると データ数の増加によって尤度が改善される結果が示された。