next up previous
次へ: Ergodic HMMを用いた形態素解析の実験 上へ: Ergodic HMMを用いた形態素解析 戻る: Ergodic HMMを用いた形態素解析の概念

Ergodic HMMを用いた形態素解析の手順


ここでは、Ergodic HMMを用いた形態素解析の手順を説明する。


  1. 初期モデルのパラメータの計算。

    Baum-Welchの学習アルゴリズムは、学習データの尤度を最大にするよ うにパラメータを再学習するアルゴリズムであるため、最初に初期 モデルとしてパラメータを設定しておく必要がある。そこで、予め 各品詞の漢字かな文字の頻度を実験的に求めておき、HMMの状 態と品詞の対応を決めて、初期モデルの各状態のシンボル出 力確率を、対応する漢字かな文字の頻度に設定する。


  2. Baum-Welchの学習

    次に大量のテキストを学習データとしてBaum-Welchの学習アルゴリ ズムを用いてパラメータを計算する。このとき、初期モデルにおけ る状態と品詞の対応は保存されることが期待される。この学習の結果、 例えば図1のパラメータが得られたとする。


  3. 形態素解析

    最後に、学習されたergodic HMMを用いて形態素解析をおこなう。 図1のモデルで``春がきた''と考えよう。このモデルでは、``春'' が状態1、``が''が状態2、``き''および``た''は状態3から出力 したときに文の最大の生成尤度を得る。初期モデルにおいて状態1 は名詞、状態2は助詞、状態3は動詞に対応していたとすると、`` 春''は名詞、``が''は助詞、``き''と``た''は動詞と形態素解析が できる。

    任意の漢字かな文を入力して状態遷移系列を計算するアルゴリズム としては、文の最大の生成尤度を出力する状態遷移系列を求める Viterbiアルゴリズムと各文字の最大確率の状態を選択して状態遷 移系列を求めるForwardアルゴリズムがある[2]。


    図 1: Ergodic HMMを用いた形態素解析の例



平成15年9月30日