実験はSET1のデータをモデル化の対象とした。 モデル化データは、検証データに対してクローズなセットになっている。
尤度の変化がに収束するのを再推定の打ち切り条件として
10回ずつモデル化を繰りかえし、
各実験ごとにエントロピーと検証データに対するcoverage(括弧内)を算出、
平均した。
表 2に 各データサイズにおけうモデルのエントロピーと coverage(生成確率が0.0とならないパターンの割合(括弧内))を示す。
データ不足によるモデルのcoverage低下は、
状態数の増加によっても改善されなかった。
その一方、データの不足が
そのままモデルのcoverage低下を引き起こすわけではないことも
1000文節のモデル化結果(データのcoverage = 17.3に対し
モデルのcoverage = 100.0
)から明らかになった。
これは、
小規模データに対するスムージングなど
ergodicHMMのモデル化能力の高さの現れと考えられる。
また、
エントロピーは、
状態数の増加によって単調に減少するのではなく、
ある状態数(8状態)で最小になることがわかる。
これはタスクに応じたある状態数で
情報量を最小にするような
モデルの最適化が生じていることを示している。
全般的に文節データ数の増加に従ってモデルのエントロピーが 上昇するが、 品詞パターンの生成確率などを個別に分析すると データ数の増加によって尤度が改善される結果が示された。