next up previous
次へ: 形態素解析の実験結果 上へ: Ergodic HMMを用いた形態素解析の実験 戻る: Ergodic HMMを用いた形態素解析の実験

形態素解析の実験条件


ergodic HMMを用いた形態素解析の解析精度を知るために、パラメー タや形態素解析の方法を変えて、以下の 8個 $( 2 \times 2\times
2)$の組み合わせについて実験を行なった。


  1. パラメータの計算方法
    1. 品詞ラベルが付与されているテキストデータから直接算出
    2. Baum-Welchの学習アルゴリズムによる学習

  2. 形態素解析の計算方法
    1. Viterbiアルゴリズム
    2. Forwardアルゴリズム

  3. テストデータ
    1. パラメータの計算に使用したテキストデータ
      (closed データ)
    2. パラメータの計算に使用しなかったテキストデータ(open データ)

また、Baum-Welchの学習アルゴリズムを用いたときの初期モデルの 状態遷移確率および初期状態確率は共に均一の値(1/114)とし、シ ンボル出力確率は6000単語の辞書データを利用して単語を品詞ごと に集め、各品詞ごとに漢字かな1文字の出力確率を計算して、この 値を利用した。

その他の実験条件を表1に、実験に用いたテキ ストデータの一部を表2に示す。



表 1: 実験条件
HMMの状態数 114
HMMのシンボル数 約3000(漢字JIS1級)
HMMの種類 全遷移型 状態出力タイプ
HMMの学習終了条件 16回学習
テキストデータの種類 国際会議の申し込みの対話文
品詞数 114種類(活用形、活用型を含む)
学習データ 124175文字(品詞既知)
テストデータ closed 130文 約3500文字
テストデータ open 130文 約1500文字



表 2: テキストデータ(例)
文字 品詞 文字 品詞 文字 品詞 文字 品詞
感動詞 間投詞 代名詞 固有名詞
感動詞 間投詞 接頭語 固有名詞
感動詞 間投詞 数詞 固有名詞
感動詞 間投詞 接尾語 固有名詞
感動詞 代名詞 格助詞 固有名詞
感動詞 代名詞 固有名詞 固有名詞




next up previous
次へ: 形態素解析の実験結果 上へ: Ergodic HMMを用いた形態素解析の実験 戻る: Ergodic HMMを用いた形態素解析の実験
平成15年9月30日