Baum-Welchの学習アルゴリズムは、学習データの尤度を最大にするよ うにパラメータを再学習するアルゴリズムであるため、最初に初期 モデルとしてパラメータを設定しておく必要がある。そこで、予め 各品詞の漢字かな文字の頻度を実験的に求めておき、HMMの状 態と品詞の対応を決めて、初期モデルの各状態のシンボル出 力確率を、対応する漢字かな文字の頻度に設定する。
次に大量のテキストを学習データとしてBaum-Welchの学習アルゴリ ズムを用いてパラメータを計算する。このとき、初期モデルにおけ る状態と品詞の対応は保存されることが期待される。この学習の結果、 例えば図1のパラメータが得られたとする。
最後に、学習されたergodic HMMを用いて形態素解析をおこなう。 図1のモデルで``春がきた''と考えよう。このモデルでは、``春'' が状態1、``が''が状態2、``き''および``た''は状態3から出力 したときに文の最大の生成尤度を得る。初期モデルにおいて状態1 は名詞、状態2は助詞、状態3は動詞に対応していたとすると、`` 春''は名詞、``が''は助詞、``き''と``た''は動詞と形態素解析が できる。
任意の漢字かな文を入力して状態遷移系列を計算するアルゴリズム としては、文の最大の生成尤度を出力する状態遷移系列を求める Viterbiアルゴリズムと各文字の最大確率の状態を選択して状態遷 移系列を求めるForwardアルゴリズムがある[2]。