形態素解析は、漢字かな文を単語に分けて品詞ラベルを付与するこ とであるが、日本語における単語の境界の曖昧性や未知語の問題を 避けるため、本稿では漢字かな文字単位に品詞ラベルを付与するこ とを目的にした。そして、文法としてルールの代わりに統計的な情 報を利用する形態素解析方法を考えた。
日本語では各々の品詞に依存して漢字仮名文字の出現頻度に偏りが ある。例えば助詞は、「は」「が」などの仮名の出現頻度が高く漢 字は出現しない。また名詞は、漢字の出現頻度が高く仮名の出現頻 度は低い。また、品詞間の遷移確率にも偏りがある。例えば名詞の 後に助詞が遷移しやすい。
このような性質に着目して、日本語を、品詞の初期確率 と、品詞間の遷移確率と、各品詞の漢字かな文字の出 力確率のパラメータを持つ確率付きの有限状態オート マトンでモデル化する。このモデルを用いて、任意の漢字かな列に 対して最も高い尤度で出力する品詞系列を計算することによって、 漢字かな文字に対する品詞が特定できる。品詞ラベルが付与された 大量のテキストデータが与えられれば、以上のパラメータ値は求める ことができる。
品詞ラベルが付与されていないテキストデータのみが与えられた場 合は、HMMを用いる。HMM[2]は、確率的性質を持つ信号 源がMarkov的に切替えられて非定常信号源を表現しているモデルで、 与えられた学習データの尤度を最大化するようにパラメータを再推 定するBaum-Welchの学習アルゴリズムがある。このモデルにはいく つかの種類があり、音声認識の分野では、Left-right HMMが良く利 用されているが、図1のような全状態が全状態に接 続されているモデルを特にergodic HMMと呼んでいる。
このergodic HMMは構造的には確率付き有限オートマトンと同じ構 造を持つため、日本語のテキストデータをBaum-Welchの学習アルゴ リズムを用いて学習したならば、学習後のモデルは、状態は品詞に、 状態遷移確率は品詞間の遷移確率に、シンボル出力確率は各品詞の 漢字かな文字の出力確率に対応づけて考えることができる。
つまり、言語モデルとしてergodic HMMを用いることによって、大 量のテキストデータがあれば、品詞ラベルも従来の形態素解析にお いて必要とされていたルールも必要とせずに形態素解析ができる可 能性がある。