平成３年７月査読修正

string for　Bunsetsu from a syllable matrix are proposed.　These methods use 2nd order Markov　 Chain Model based on string of syllables, Kanjisand part of speeches as wll as a Word dictionary.

　文節単位の音節マトリックス形式で入力された日本語音節認識候補から漢字かな混じりの日本語文節候補を生成する処理において、従来の二重マルコフモデルによる文節音節列抽出に加えて、漢字かな列及び品詞列の二重マルコフモデルを適用した場合の文節絞り込み効果を２つの方法で、実験的に明らかにした。

　第１の方法（音節選出型文節処理方式）では、まず初めに文節単位の音節マトリックスに音節の二重連鎖確率を適用して８位までの文節音節列候補を得る。次に１６万語の単語辞書を参照して漢字かな混じりの単語に変換する。最後に、二重の漢字かな混じり文字連鎖確率、あるいは二重の品詞連鎖確率を適用して、漢字かな混じり文節候補を生成し、その正解率を求めた。

　第２の方法（直接抽出型文節処理方式）では、初めに同音節マトリックスから同単語辞書を用いて直接、文節単語列候補を抽出する。次に、音節、漢字、品詞それぞれの二重連鎖確率を適用し、漢字かな混じり文節候補を生成し、その正解率を求めた。

　この結果、情報の適用順序によって正解率に若干の差はあるが、漢字かな混じりの文節候補の生成において、漢字列の二重マルコフ連鎖モデルの効果は顕著で、第１位の候補の正解率は第１、第２の方法でそれぞれ６５％、８５％となるなど、高い精度の漢字かな混じり文節候補が得られることなどが分かった。

　日本文音声入力においては、音声の持つ物理的特性に着目した音声認識装置の限界を克服するため、日本語の文法や意味を用いた自然言語処理を併用することの必要性が指摘されている^（１）。特に大量語彙を対象とする音声には発音の個人差や曖昧さの他に、同音異義語なども多数含まれるため、その認識においては音声の物理的特性が完全に生かされたとしても、なお絞り切れない曖昧さが残り、元の文を推定するには、言語解析や意味理解の技術が必要と考えられる。

　音響処理と自然言語処理を融合させた、日本文音声入力の一つの方法として、文節単位の音節マトリックスをインターフェースに用いて、音声認識装置と自然言語処理を連携させる方法^（２）～^（７）が考えられている。すなわち、音声認識装置が音声の物理的特性を解析して、文節単位に文節内の各音節候補をマトリックス形式で出力し、自然言語処理はそのマトリックスを入力として、正しい漢字かな混じり文を推定する方法である。

　この場合の言語処理の方法としては、従来、二つの方法が考えられている。その一つは、音節マトリックスに言語の文法情報や意味情報を直接適用して、正しい日本語文節を推定しようとするもの^（７）であり、もう一つは、文法や意味情報を適用する前に、音節や文字の統計的な連鎖情報を適用して文節候補を一定の数に絞り込む方法^{（３、４、５、６）}である。

　前者は文法、意味情報を直接適用し、漢字かな混じり文節を生成する点に特徴がある。しかし、実際の単語の代わりに単語の文法的カテゴリーや意味的カテゴリーが使用されるため、絞り込みの精度はこれらのカテゴリーの分解能に依存し、複数の単語候補が同一のカテゴリーに属するような大量語彙の認識では、文節候補を絞り込むのは容易でない。そのため、従来の実験報告^（７）では数千語を対象とするレベルに留まっている。

　一方、後者の方法では、大量語彙の認識において、音節の二重マルコフ連鎖モデルが有効で、その適用により、文節単位の音節マトリックスから、第一位で約７０％、第１０位までの累積正解率で約９５％の高い精度の文節音節連鎖候補を生成できることが指摘されている^{（４，６）}が、漢字かな混じり文節候補を生成するにはさらに膨大な曖昧性を絞り込むことが必要であった。

　これに対して本論文では、漢字かな混じりの文の誤字、脱字等に漢字マルコフモデルが効果的であること^（８）に着目し、音節マトリックスから漢字かな混じり文字列を生成するための方法として、音節列および漢字かな文字列の二重マルコフ連鎖モデル等と単語辞書を組み合わせた二種類の曖昧性絞り込みの方法を提案し、その効果を実験的に示す。

　第１の方法（音節選出型文節処理方式）では、初めに文節単位の音節マトリックスに音節の二重連鎖確率を適用して、８位までの文節音節列候補を得る。次に１６万語の単語辞書を参照して単語候補を抽出し、最後に、二重の漢字連鎖確率と二重の品詞連鎖確率のそれぞれを適用して、漢字かな混じり文節候補を生成する。

　第２の方法（直接選出型文節処理方式）では、初めに同音節マトリックスから同単語辞書を用いて直接、単語列候補を抽出し、次に、音節、漢字、品詞それぞれの二重連鎖確率を適用して、漢字かな混じり文節候補を生成する。

　なお、音節、漢字、品詞に関する連鎖確率情報（辞書）は７４日分の新聞記事文からコンピュータによる形態素解析^（９）を行い、それをさらに再構成して作成した。

　日本文の音節や文字連鎖の持つ情報量を応用した「文節処理」の効果を調べるため、音声の持つ物理的特性に着目した音声認識処理と、それ以外の言語処理的な部分とを分け、図１に示すような日本文音声認識手順を考える。日本文の音声入力のマンマシーンインターフェースとしては、単音節単位、文節単位の入力や連続音声の入力などが上げられるが、ここではその何れかは問題とせず、これらの差は音声認識装置で吸収されるものとする。すなわち、音声認識装置は一音節単位に認識した音節候補（一般に音節毎に複数）を文節の単位で出力するものとする。

　「文節処理」では、このようにして音声認識装置から出力された各音節候補を組み合わせて漢字かな混じりの文節候補を生成し、その中で適切と見られる文節候補を、その数を限定して出力する。最後に「文処理」において文節候補を文単位に結合して得られる最も適切な文節の組を入力文に対する認識結果として出力する。

　以下では、以上の日本文認識手順の中の「文節処理」において、日本文の音節連鎖特性や文字連鎖特性を応用した認識候補絞り込みの方法を提案し、その効果を実験的に示す。

　「音声認識処理」と「文節処理」とは図２に示すような文節単位の音節マトリックスで結合されるものとし、「文節処理」の結果としては、文節毎の漢字かな混じり文字列候補を出力する。

　大量語彙を対象とする漢字かな文字列の生成では、同音異義語が多数存在し、同一のかな列に対して複数の漢字列が対応するため、音節列の場合^{（４，６）}に比べて曖昧さが桁違いに大きく、数億個以上の候補か出力されることが普通である。従って、「文節処理」の課題は、このような膨大な文節候補の中から、正解を含む少数の文節候補を発見することである。

　入力された文節単位の音節マトリックスから以下の３ステップの処理を経て、漢字かな混じり文節候補を生成する。すなわち、まず初めに、音節マトリックスに対して日本語の持つ音節連鎖特性を適用して音節の組み合わせ候補を絞り込む。次に、その結果に対して単語辞書を適用して文節を構成する漢字かな混じり単語候補の組を生成する。最後に、漢字連鎖や品詞連鎖の情報を使用して、文節候補の順序づけを行う。

　上記の方法が、はじめに音節連鎖情報を使用するのに対して、この方法は、音節マトリックスに直接単語辞書を適用するもので、以下の二ステップで漢字かな混じり文節候補を生成する。

　まず、単語認定においては音節マトリックス内の音節候補を組み合わせながら辞書引きを行い、単語として解釈可能な候補の組み合わせをすべて抽出する。その後は音節連鎖や漢字連鎖、品詞連鎖などの情報を使用して文節候補を生成する。

　音節マトリックスから文節音節列候補を生成する方法として、二重マルコフ連鎖モデルを用いる。マルコフモデルによる候補絞り込みでは、正しい音節列は間違った音節列よりも音節連鎖確率の積が大きいと仮定して、音節列候補を評価する。二重マルコフ連鎖モデルでは、前方２つの音節候補が正しいとしたとき、着目する音節候補の正しさはどれだけかを確率的に評価し、その積によって文節候補の尤度を求め、文節候補の順位付けを行う。例えば図４の例で、「ワラクニケイザイノ」の文節候補の尤度は

　　＝p(ﾜ/__)*p(ﾗ/_ﾜ)*p(ｸ/ﾜﾗ)*p(ﾆ/ﾗｸ)*p(ｹ/ｸﾆ)*p　　　　(ｲ/ﾆｹ)*p(ｻﾞ/ｹｲ)*p(ｲ/ｲｻﾞ)*p(ﾉ/ｻﾞｲ)*p(_/ｲﾉ)*　　　p(_/ﾉ_)　（ただし _は空白を意味する。）

で与えられる。これを他の音節の組み合わせを含む１６５，８８８通りのすべてについて計算し、上位何候補かに絞り込む。この場合は第１位の候補として「ワガクニケイザイノ」が得られ、第２位としては「ワガクニケイザイニモ」が得られる。

　一般に、音節マトリックスを対象に直接この計算を行うのは計算量の点で困難であるが、ビテルビのアルゴリズム^（１０）を拡張した改良型ビテルビのアルゴリズム^（１１）によれば、少ない計算量で容易に評価することができる。^*1

　このプロセスはワードプロセッサのかな漢字変換と基本的に同じである。ここでは分割数最小法^（１２）を基本とするが、正解候補のもれを防止するするため、最小分割数＋１までの単語数の文節候補を生成する。

　最後に上記で得られた漢字かな混じりの文節候補に対して順位付けを行う。順位付けの方法としては、漢字連鎖、もしくは品詞連鎖の二重マルコフ連鎖モデルを使用する。

　まず音節マトリックスの音節候補をつなぎ合わせた音節列の中に文節を一単語として解釈できる単語候補があるかどうかを単語辞書を使って調べる。図５の例では、９音節を一単語と考え、各音節を組み合わせた単語の有無を調べる。すなわち、４×６×４×４×６×６×１×６×２＝２７６４８通りの音節の組み合わせに対して、９音節の全てが一致するような単語が辞書に存在するか否かを調べ、存在すればすべて抽出する。もしそのような単語が存在しなければ音節マトリックスを二つに分割する。図５の例ではそのような単語候補はないので、下記（実線）のようにマトリックスを二つに分割する。

　第１ブロック、第２ブロックの双方に対して前と同様の方法で単語辞書引きを行い、辞書上の単語の有無を調べる。何れかのブロックに対して単語が存在しないときは分割が不適切と考え、第１、第２、のブロックの分割の仕方を変える（破線）。

分割された二つのブロックの双方に一つ以上の単語候補が存在するような分割の仕方が無いときは、全体を三つのブロックに分割する。全てのブロックに対して一つ以上の単語候補が存在するようになるまで、この手順を繰り返し、辞書上で解釈可能な最小の分割数を求める。

　また、このようにして求めた分割数最小の分割法の全てに対して、ブロック毎に辞書上解釈可能な全ての漢字かな混じり単語列候補を出力する。

　前項で抽出された単語候補を組み合わせて得られる漢字かな混じりの文節単語列に対して、３．１（３）と同様のマルコフ連鎖モデルを適用し、順位付けを行う。ただし、ここでは漢字連鎖の情報を適用した場合、品詞連鎖の情報を適用した場合の二つの場合に加えて、音節連鎖の情報を適用した場合についても評価する。

　音節選出型文節処理方式と直接選出型文節処理方式のアルゴリズムでは、使用される情報は同じであるが、その適用順序に違いがある。前者は音節連鎖情報を最初に使用するので、その後、評価対象となる候補数が大幅に減少する。そのため、全体としての計算量が少ないと言う利点があるが、逆に単語辞書の適用の段階では、当てはめ可能な単語候補の大半がすでに捨てられており、正解候補も失われている恐れがある。

　これに対して、後者のアルゴリズムでは単語辞書を最初に適用するため、多数の単語候補が生成され、後の処理が重くなるが、正解候補をもらす可能性はより少ないと予想される。^*1

　日経新聞記事７４日分（８２年１月４日から３月３１日）を対象に日本文解析プログラムを使用して文節切り、単語切り、音節変換などを行った。その後、音節、漢字、品詞について０重、一重、二重連鎖統計を取り、その結果を集計してそれぞれの連鎖確率辞書を作成した。

　ただし実験を簡単にするため、統計用標本から、記号、外国語読み、数詞の文字のある文は文全体を削除した。その結果、統計用標本の文字数は漢字かな混じり文字でみて約１７０万文字である。

　このようにして作成した連鎖確率辞書では、すべての組み合わせが網羅されるとは言えず、連鎖確率値のない組合せが出現する。そのような組み合わせに対しては、統計上の最小値を与える方法や次数の少ない連鎖確率との補間で代用する方法^（４）などが考えられるが、ここでは確率値をexp(-1000.0)とした。

　文節処理の入力となる音節マトリックスは、従来の音声認識装置^（１３）の認識率情報（コンヒュージョン・マトリックス）に基づき、以下の条件でコンピュータ・シミュレーションにより生成した。

　３）音節の認識距離情報は使用しない。すなわち、　　音節マトリックスにおける候補順位は無視し、全　　て同一の重みと仮定する。

　４）音節に長音「ー」、鼻音「カ゜」行、促音「ッ」　　の存在を仮定する。これは音声出力用の形式で登　　録されて単語辞書とのインターフェースを合わせ　　るためである。なお、これらの音節の１位認識率　　は１００％としている。

　また、連鎖統計情報の標本量と実験で得られる文節認識率の信頼性との関係を見るため、音節マトリックスの標本として以下の二種類を用意した。

　　　　連鎖統計に使用した日本文以外の標本文から　　　生成した文節音節マトリックス１００件を文節　　　処理の入力とした実験。（日経新聞８２年１月　　　１日の記事文から抽出）

　　　　連鎖統計に使用した日本文内の標本文から選　　　んで生成した文節音節マトリックス１００件を　　　文節処理の入力とした実験。（日経新聞８２年　　　１月５日の記事文から抽出）

　単語辞書は一般語、使用頻度の高い人名地名などの固有名詞を含む１６万語の日本文音声変換用の辞書を使用した。ただし、使用した情報は漢字表記、読み（音節表記）、品詞の三種類である。

　音節選出型文節処理方式と、直接選出型文節処理方式の出力結果の例をそれぞれ図６、図７に示す。結果として得られた音節列候補、漢字かな混じり文字列候補、単語品詞列候補の右端に示した数値は二重連鎖確率の総積値の自然対数の逆数を文字数で割った値である。したがって値が小さいほど尤度が高いことを示している。なお、出力候補の中で入力と一致する正しい候補は網掛けで示した。

　このような出力結果を入力標本文節１００件について集計した結果を図８～９に示す。これらの図から以下のことがわかる。

１）音節列の１位認識率は最大値が直接選出型のクロ　ーズドデータで７９％、最小値がオープンデータで　５６％であった。また、８位までの累積認識率は音　節選出型と直接選出型での差はなく、クローズドデ　ータで９４％、オープンデータで９３％であった。

２）漢字列の１位認識率は音節選出型、直接選出型共　に、クローズドデータで８４％であった。特に直接　選出型では４位までの累積認識率は９９％を示した。　また、オープンデータでは１位認識率が音節選出型　では７０％、直接選出型では６５％であるが、８位　までの認識率は共に９０％を越えた。

３）品詞列の場合は音節列や漢字列の場合より認識率　が遥かに低く、両方式で見て、１位認識率は２７～　４２％、８位までの累積認識率は７２～７７％にし　か過ぎない。しかし、オープンデータとクローズド　データの認識率の差は殆どない。

　クローズドデータとオープンデータの認識率の差は音節列、特に漢字かな文字列で顕著であるのにたいして、品詞列では差がほとんど認められない。これは連鎖統計量の収束性の問題で、さらに多くの標本を用いることにより両者がお互いに接近する形で、その差は減少すると判断される。

　なお、統計用標本の量と統計量の収束性の関係を調べるため、今回使用した統計用標本（新聞記事）の量と、エントロピーの関係を図１０に示す。図から品詞連鎖、音節連鎖、漢字仮名連鎖の順に、エントロピーの収束性が良いことがわかる。

　また、図１０において音節連鎖と漢字かな連鎖の特性を比較すると、０，１，３重の場合は音節連鎖の方がエントロピーが小さいが、２重の場合は逆に漢字かな連鎖の方が小さくなっている点が特徴的である。これは、二重マルコフモデルにおいては、漢字かな連鎖の方が情報量が大きく、それ以上、次数を上げても効果は少ないのに対して、音節連鎖ではさらに次数を上げればそれだけ大きな効果が得られることを意味している。

　正解候補が最終的に８位以内に入らなかった文節を見ると、今回の実験ではそれらのすべてが、音節選出型の方式では音節列の選出の失敗に起因し、直接選出型の方式では単語境界の分割数が足りないことに起因していることが分かった。

　前者の漏れを防ぐには、音節連鎖モデルの段階で抽出する音節列候補の数を増やすことが考えられるが、計算量の増加を伴うので適当なトレードオフが必要となる。また、後者の漏れを防ぐには単なる分割数最小法ではなく、係り受け併用型の分割数最小法^（１４）を採用した方が良いと考えられる。

　日本文音声認識において音声の物理的特性を使用した音声認識装置と自然言語処理の間を結ぶ処理として、マルコフ連鎖モデルを用いた文節処理の二つの方法（音節選出型と直接選出型）を提案し、その効果を実験的に求めた。

　その結果、これらの方式によれば、いずれも従来のマルコフ連鎖モデルを用いた文節音節列候補生成で得られた正解率と同じか、それ以上の精度で、漢字かな混じりの文節候補を生成できることが分かった。これは、漢字かな列の２重マルコフ連鎖モデルの効果が特に顕著で、大量語彙辞書を用いて、音節列から漢字列を生成する際に生じる膨大な曖昧性がほぼ完全に解消することを意味している。

　音節選出型と直接選出型の文節処理を比べると、第１候補では、後者の精度が若干高いものの両者に大きな差異は認められないことから、音節間の二次連鎖確率には単語内音節連鎖の情報がかなり反映されており、音節正解候補推定の能力の点でみれば、音節間の二次連鎖確率は単語音節辞書に代わり得る情報を持つことが推定される。漢字かな列連鎖情報と品詞列連鎖情報の比較では、前者は漢字かな混じり文節候補の推定に大きな効果を持ち、直接選出の場合、第１位で８５％の正解率を持つ文節候補が抽出される。

　オープンデータとクローズドデータの場合の比較では両者の差は音節列、漢字かな混じり文字列に比べて品詞列の場合が最も小さくなる。このことから、品列連鎖確率は前２者に比べて小量のデータで収束することが分かるが、これは同時に候補絞り込みに使用される情報量が少ないことも意味しており、実験では文節絞り込みの精度は最も小さくなっている。

　本論文では、大量語彙の音声認識におけるマルコフ連鎖モデルの効果を見る立場から、音声認識装置からの認識距離は使用せず、音節列、漢字列、品詞列それぞれの連鎖確率の効果を調べた。

　なお、本論文では対象外としたが、今後、音声認識部における脱落、挿入などを含むセグメンテーションの誤りの問題や、文節候補の曖昧性をさらに絞り込むための、文節間文法情報や意味、文脈等情報等の適用方法の検討、また、クローズデータにおいて連鎖確率値がない場合の値の定め方等の検討が必要である。

　本研究では日本文訂正支援システム^（９）の辞書を使用したが、これらの辞書は宮崎正弘新潟大教授、安田主幹研究員、高木、島崎両主任研究員等の方々と池原が開発したものである。本研究の手段を実現されたこれらの方々と日頃議論して頂く自然言語処理関連グループの皆様に深謝する。また、有意義な御意見を頂いたＨＩ研嵯峨山主幹研究員（現ＡＴＲ）、情報研の中村主幹研究員に深謝する。

(6) 荒木,村上,池原:"２重音韻マルコフモデルによる　日本語の文節音韻認識候補の曖昧さの解消効果",情　処論,Vol.30,No.4,pp.467-477(1989.4)

(7)坪井、管村、富久、小橋:"文節発声の日本語入力　システムにおける日本語変換法",信学会論文誌,D-2,　Vol.j72-D-2,No8,pp.1284-1290(1989.4)

(8) 池原,白井:"単語解析プログラムによる日本文誤字　の自動検出と二次マルコフモデルによる訂正候補の　抽出",情処論,Vol.25,No.2,pp.298-305(1984.3)

(11) 荒木,村上,池原,"ｍ重マルコフモデルを用いた音　節ラティスからの候補絞り込みアルゴリズム",信学　技法CS-90-55,pp.13-18(1990.10.19)

^*1 ビテルビのアルゴリズム^（１０）の対象は一重マルコフモデルに限定され、抽出される候補も最尤候補一件のみに限られるが、改良型アルゴリズム^（１１）では一般にｎ重マルコフ連鎖モデルに適用でき、最尤候補から順番にｍ位までの候補を抽出できる。

第１ブロック		第２ブロック
	イピシリミギ
ワラクニケイザ　　　　　パガグミヘピ　　　　　バワプイエシ　　　　　　アタフビゲリ　　　　　　　パ　　テミ　　　　　　ア　　ぺギ		ノモ

第１ブロック	第２ブロック