Ergodic HMMを用いた形態素解析の概念

次へ: Ergodic HMMを用いた形態素解析の手順 上へ: Ergodic HMMを用いた形態素解析 戻る: Ergodic HMMを用いた形態素解析

Ergodic HMMを用いた形態素解析の概念

形態素解析は、漢字かな文を単語に分けて品詞ラベルを付与することであるが、日本語における単語の境界の曖昧性や未知語の問題を避けるため、本稿では漢字かな文字単位に品詞ラベルを付与することを目的にした。そして、文法としてルールの代わりに統計的な情報を利用する形態素解析方法を考えた。

日本語では各々の品詞に依存して漢字仮名文字の出現頻度に偏りがある。例えば助詞は、「は」「が」などの仮名の出現頻度が高く漢字は出現しない。また名詞は、漢字の出現頻度が高く仮名の出現頻度は低い。また、品詞間の遷移確率にも偏りがある。例えば名詞の後に助詞が遷移しやすい。

このような性質に着目して、日本語を、品詞の初期確率 ${\pi _i}$ と、品詞間の遷移確率 ${a_{i j}}$ と、各品詞の漢字かな文字の出力確率 ${b_j(o_t)}$ のパラメータを持つ確率付きの有限状態オートマトンでモデル化する。このモデルを用いて、任意の漢字かな列に対して最も高い尤度で出力する品詞系列を計算することによって、漢字かな文字に対する品詞が特定できる。品詞ラベルが付与された大量のテキストデータが与えられれば、以上のパラメータ値は求めることができる。

品詞ラベルが付与されていないテキストデータのみが与えられた場合は、HMMを用いる。HMM[2]は、確率的性質を持つ信号源がMarkov的に切替えられて非定常信号源を表現しているモデルで、与えられた学習データの尤度を最大化するようにパラメータを再推定するBaum-Welchの学習アルゴリズムがある。このモデルにはいくつかの種類があり、音声認識の分野では、Left-right HMMが良く利用されているが、図1のような全状態が全状態に接続されているモデルを特にergodic HMMと呼んでいる。

このergodic HMMは構造的には確率付き有限オートマトンと同じ構造を持つため、日本語のテキストデータをBaum-Welchの学習アルゴリズムを用いて学習したならば、学習後のモデルは、状態は品詞に、状態遷移確率は品詞間の遷移確率に、シンボル出力確率は各品詞の漢字かな文字の出力確率に対応づけて考えることができる。

つまり、言語モデルとしてergodic HMMを用いることによって、大量のテキストデータがあれば、品詞ラベルも従来の形態素解析において必要とされていたルールも必要とせずに形態素解析ができる可能性がある。

平成15年9月30日