Ergodic HMMを用いた形態素解析の手順

次へ: Ergodic HMMを用いた形態素解析の実験 上へ: Ergodic HMMを用いた形態素解析 戻る: Ergodic HMMを用いた形態素解析の概念

Ergodic HMMを用いた形態素解析の手順

ここでは、Ergodic HMMを用いた形態素解析の手順を説明する。

初期モデルのパラメータの計算。

Baum-Welchの学習アルゴリズムは、学習データの尤度を最大にするようにパラメータを再学習するアルゴリズムであるため、最初に初期モデルとしてパラメータを設定しておく必要がある。そこで、予め各品詞の漢字かな文字の頻度を実験的に求めておき、HMMの状態と品詞の対応を決めて、初期モデルの各状態のシンボル出力確率を、対応する漢字かな文字の頻度に設定する。
Baum-Welchの学習

次に大量のテキストを学習データとしてBaum-Welchの学習アルゴリズムを用いてパラメータを計算する。このとき、初期モデルにおける状態と品詞の対応は保存されることが期待される。この学習の結果、例えば図1のパラメータが得られたとする。
形態素解析

最後に、学習されたergodic HMMを用いて形態素解析をおこなう。図１のモデルで``春がきた''と考えよう。このモデルでは、``春'' が状態１、``が''が状態２、``き''および``た''は状態３から出力したときに文の最大の生成尤度を得る。初期モデルにおいて状態１は名詞、状態２は助詞、状態３は動詞に対応していたとすると、`` 春''は名詞、``が''は助詞、``き''と``た''は動詞と形態素解析ができる。
任意の漢字かな文を入力して状態遷移系列を計算するアルゴリズムとしては、文の最大の生成尤度を出力する状態遷移系列を求める Viterbiアルゴリズムと各文字の最大確率の状態を選択して状態遷移系列を求めるForwardアルゴリズムがある[2]。

図 1: Ergodic HMMを用いた形態素解析の例

平成15年9月30日