ergodic HMMを用いた形態素解析の解析精度を知るために、パラメー タや形態素解析の方法を変えて、以下の 8個 の組み合わせについて実験を行なった。
また、Baum-Welchの学習アルゴリズムを用いたときの初期モデルの 状態遷移確率および初期状態確率は共に均一の値(1/114)とし、シ ンボル出力確率は6000単語の辞書データを利用して単語を品詞ごと に集め、各品詞ごとに漢字かな1文字の出力確率を計算して、この 値を利用した。
その他の実験条件を表1に、実験に用いたテキ ストデータの一部を表2に示す。
HMMの状態数 | 114 |
HMMのシンボル数 | 約3000(漢字JIS1級) |
HMMの種類 | 全遷移型 状態出力タイプ |
HMMの学習終了条件 | 16回学習 |
テキストデータの種類 | 国際会議の申し込みの対話文 |
品詞数 | 114種類(活用形、活用型を含む) |
学習データ | 124175文字(品詞既知) |
テストデータ closed | 130文 約3500文字 |
テストデータ open | 130文 約1500文字 |
文字 | 品詞 | 文字 | 品詞 | 文字 | 品詞 | 文字 | 品詞 |
は | 感動詞 | え | 間投詞 | ら | 代名詞 | 訳 | 固有名詞 |
い | 感動詞 | ー | 間投詞 | 第 | 接頭語 | 電 | 固有名詞 |
も | 感動詞 | っ | 間投詞 | 1 | 数詞 | 話 | 固有名詞 |
し | 感動詞 | と | 間投詞 | 回 | 接尾語 | 国 | 固有名詞 |
も | 感動詞 | そ | 代名詞 | の | 格助詞 | 際 | 固有名詞 |
し | 感動詞 | ち | 代名詞 | 通 | 固有名詞 | 会 | 固有名詞 |