[標題]
日本文音節入力に対して二重マルコフ連鎖モデル
を用いた漢字かな混じり文節候補の抽出精度
The Effects of Trigram Model in Japanese
Speech Recognition
[著者]
村上 仁一 *1 Jin'ichi MURAKAMI ,正員
荒木 哲郎 *2 Tetsurou ARAKI ,正員
池原 悟 Satoru IKEHARA ,正員
NTT情報通信処理研究所
〒238-03 横須賀市武一丁目2356
NTT Communications and Information
Processing Laboratory, Yokosuka-shi,380-03
Abstract
Trigram methods which generates Kanji-Kana
string for Bunsetsu from a syllable matrix are proposed. These methods use trigram model based on string of syllables, Kanjis and part of speeches as wll as a Word dictionary.
The experiments show that correct ratio of
the first candidate for Bunsetsu are 56-79% in syllable string, 65-84% in Kanji-Kana string
and 27-42% in part of speech string.
It was found from these results that trigrammethods are very effective to reduse the number of candidates without loosing the correct
candidate.
あらまし
文節単位の音節マトリックス形式で入力された日本語音節認識候補から漢字かな混じりの日本語文節候補を生成する処理において、従来の音節の二重マルコフモデルによる音節の文節候補の選択に加えて、漢字かなの二重マルコフモデルを適用して漢字かな混じりの文節候補の絞り込み効果を2つの方法で、実験的に明らかにした。
第1の方法(音節選出型文節処理方式)では、初めに文節単位の音節マトリックスに音節の二重マルコフモデルを適用して音節の文節候補を得る。次に単語辞書を参照して単語候補に変換する。最後に、漢字かなの二重マルコフモデルを適用して、漢字かな混じりの文節候補を生成する。
第2の方法(直接選出型文節処理方式)では、初めに同音節マトリックスから同単語辞書を用いて直接、単語候補を抽出する。次に、漢字かなの二重マルコフモデルを適用して漢字かな混じりの文節候補を生成する。
それぞれの方法における正解率を求めた結果、文節候補の生成において、漢字かなの二重マルコフモデルの効果は顕著で、第1位の候補の正解率は第1、第2の方法でオープンデータにおいて、それぞれ65%、70%、クローズドデータにおいて、それぞれ83、84%となり、高い精度の漢字かな混じりの文節候補が得られることが分かった。
1.はじめに
日本文音声入力においては、音声の持つ物理的特性に着目した音声認識装置の限界を克服するため、日本語の文法や意味を用いた自然言語処理を併用することの必要性が指摘されている(1)。特に大量語彙を対象とする音声には発音の個人差や曖昧さの他に、同音異義語なども多数含まれるため、その認識においては音声の物理的特性が完全に生かされたとしても、なお絞り切れない曖昧さが残り、元の文を推定するには、言語解析や意味理解の技術が必要と考えられる。
音響処理と自然言語処理を融合させた、日本文音声入力の一つの方法として、文節単位の音節マトリックスをインターフェースに用いて、音声認識装置と自然言語処理を連携させる方法(2)〜(7)が考えられている。すなわち、音声認識装置が音声の物理的特性を解析して、文節単位に各音節候補をマトリックス形式で出力し、自然言語処理はそのマトリックスを入力として、正しい漢字かな混じりの文節候補を推定する方法である。
この場合の言語処理の方法としては、従来、二つの方法が考えられる。その一つは、音節マトリックスに言語の文法情報や意味情報を直接適用して、正しい文節を推定しようとするもの(7)であり、もう一つは、音節や文字の統計的な連鎖情報を適用して文節候補を絞り込む方法(3、4、5、6)である。
前者は文法、意味情報を直接適用して文節を生成する点に特徴がある。しかし、実際の単語の代わりに単語の文法的カテゴリーや意味的カテゴリーが使用されるため、絞り込みの精度はこれらのカテゴリーの分解能に依存し、複数の単語候補が同一のカテゴリーに属するような大量語彙の認識では、文節候補を絞り込むのは困難である(7)。
一方、後者の方法では、大量語彙の認識において、音節の二重マルコフモデルが有効で、その適用により、文節単位の音節マトリックスから、第一位で約70%、第10位までの累積正解率で約95%の高い精度の音節文節候補を生成できることが指摘されている(4,6)。しかし、漢字かなの文節候補を生成するにはさらに膨大な曖昧性を絞り込むことが必要であった。
ところで、漢字かな混じりの文の誤字、脱字等に漢字かなのマルコフモデルが効果的であること(8)が知られている。そこで本論文では、音節マトリックスから文節候補を生成するための方法として、音節の二重マルコフモデルのほかに漢字かなの二重マルコフモデルおよび単語辞書を使用した。そして、これらを組み合わせた二種類の曖昧性絞り込みの方法を提案し、その効果を実験的に示した。
2.実験システムの構成
2.1 日本文音声認識の処理手順
日本文の音節や文字連鎖の持つ情報量を応用した「文節処理」の効果を調べるため、音声の持つ物理的特性に着目した音声認識処理と、それ以外の言語処理的な部分とを分け、図1に示すような日本文音声認識手順を考える。
Experiments in this Study
Feedback Feedback
Fig.1 The Processes of Japanese Speech Recognition
図1 文節処理を含む日本文音声認識の手順
日本文の音声入力のマンマシーンインターフェースとしては、単音節単位、文節単位および連続音声の入力などが考えられるが、ここでは音声認識装置は一音節単位に認識した複数の音節候補を文節の単位で出力、つまり文節単位の音節マトリックスの形態で出力するものとする。「文節処理」では、音声認識装置から出力された音節マトリックスから単語候補を生成し、その中で適切と見られる漢字かな混じりの文節候補を、その数を限定して出力する。最後に「文処理」において文節候補を文単位に結合して得られる最も適切な文節の組を入力文に対する認識結果として出力する。
以下では、以上の日本文認識手順の中の「文節処理」において、日本文の音節や漢字かなの二重マルコフモデルを用いた認識候補絞り込みの方法を提案し、その効果を実験的に示す。
2.2 文節処理の方法
「音声認識処理」と「文節処理」は図2に示すような文節単位の音節マトリックスで結合されるものとし、「文節処理」の結果としては、文節毎の漢字かな混じり文を出力する。
[Original Sentence]わが国経済の・・・・
[Syllable] ワガクニケイザイノ・・・
|
Time
Order ワラクニケイザイノ
パガグミヘピ ピモ
バワプイエシ シ
アタフビゲリ リ
パ テミ ミ
ア ぺギ ギ
|
|
|
Order わが国経済の
わが国経済も
・・・・・
|
|
Fig.2 Bunsetsu Processing
図2 文節処理
大量語彙を対象とする漢字かな混じり文の生成では、同音異義語が多数存在し、同一のかな列に対して複数の漢字が対応するため、音節列の場合(4,6)に比べて曖昧さが桁違いに大きく、通常、数億個以上の候補が出力される。従って、「文節処理」の課題は、このような膨大な文節候補の中から、正解を含む少数の文節候補を選択することである。
以下では、このような「文節処理」の方法として図3に示す二つの方法を考える。
Bunsetsu Processing
|
|
|
Syllable
Matrix
|
|
|
Generation of
Syllable String
|
|
Word Generation
|
|
Kanji-Kana
Generation
|
|
|
Bunsetsu
Candidates
|
|
|
|
(A)Bunsetsu Processing Method 1 = Syllable Selection Method
(A)文節処理方式1=音節選出型文節処理方式
Bunsetsu Processing
|
|
|
|
Syllable
Matrix
|
|
|
Word Generation
|
|
Kanji-Kana
Generation
|
|
|
Bunsetsu
Candidates
|
|
|
|
|
(B)Bunsetsu Processing Method 2 = Direct Selection Method
(B)文節処理方式2=直接選出型文節処理方式
Fig.3 Two Methods for Bunsetsu Processing
図3 文節処理の二つの方式
(1)音節選出型文節処理方式
入力された文節単位の音節マトリックスから以下の3ステップの処理を経て、文節候補を生成する。すなわち、まず初めに、音節マトリックスに対して日本語の持つ音節のマルコフモデルを適用して音節の組み合わせ候補を絞り込む。次に、その結果に対して単語辞書を適用して文節を構成する単語候補を生成する。最後に、漢字かなのマルコフモデルを使用して、文節を出力する。
(2)直接選出型文節処理方式
上記の方法が、はじめに音節連鎖情報を使用するのに対して、この方法は、音節マトリックスに直接単語辞書を適用するもので、以下の二ステップで文節候補を生成する。
はじめに単語認定においては音節マトリックス内の音節候補を組み合わせながら辞書引きを行い、単語として解釈可能な候補の組み合わせをすべて抽出する。次に漢字かなのマルコフモデルを使用して文節候補を生成する。
3.文節候補生成アルゴリズム
3.1 音節選出型文節処理のアルゴリズム
音節選出型文節処理方式における入出力データの流れを図4に示す。
[Input Data]=Syllable Matrix
|
Time→ |
|
|
|
Order
of
Candidates
↓ |
ワラクニケイザイノ
パガグミヘピ ピモ
バワプイエシ シ
アタフビゲリ リ
パ テミ ミ |
ア ぺギ ギ
|
|
|
Trigram of Syllable
[Intermediate Results]
Syllable String
|
Time→ |
|
|
|
Order
of
Candidates
↓ |
ワガクニケイザイノ
ワガクニケイザニモ
ワガクイカイザイノ
ワガクイケイザイモ |
|
|
Word Dictionary
[Intermediate Results]
Word Candidates
|
Time→ |
|
|
|
Candidates
↓ |
わが
吾が |
国
那 |
経済
けいざい |
の
|
|
|
|
Candidates
↓ |
わが
吾が |
国
那 |
経済
けいざい |
も
|
|
|
Trigram of Kanji-Kana
[Results of Bunsetsu Processing]
Kanji-Kana Bunsetsu Candidates
|
|
Candidate
↓ |
わが国経済の
わが国経済も |
|
|
Fig.4 Algorithm of Syllable Selection Method
図4 音節選出型アルゴリズムのデータの流れ
(1)音節文節候補の生成アルゴリズム
音節マトリックスから音節文節候補を生成する方法として、二重マルコフモデルを用いる。マルコフモデルによる候補絞り込みは、正しい文節候補は間違った候補よりもマルコフ連鎖値の積が大きいと仮定して、文節候補を評価する。例えば図4の例で、「ワラクニケイザイノ」の文節候補の尤度は
P(__ワラクニケイザイノ__)
=p(ワ/__)*p(ラ/_ワ)*p(ク/ワラ)*p(ニ/ラク)*p(ケ/クニ)*p (イ/ニケ)*p(ザ/ケイ)*p(イ/イザ)*p(ノ/ザイ)*p(_/イノ)* p(_/ノ_) (ただし _は空白を意味する。)
で与えられる。これを他の音節の組み合わせを含む165,888通りのすべてについて計算し、上位何候補かに絞り込む。この場合は第1位の候補として「ワガクニケイザイノ」が得られ、第2位としては「ワガクニケイザイニモ」が得られる。
一般に、音節マトリックスを対象に直接この計算を行うのは計算量の点で困難であるが、ビテルビのアルゴリズムを使用することにより、少ない計算量で容易に評価することができる。*1
(2)単語認定アルゴリズム
前項で得られた複数の音節列の上位8位までの音節列に対して、単語辞書を参照し、当てはまる単語候補を出力する。
このプロセスはワードプロセッサのかな漢字変換と基本的に同じである。ここでは分割数最小法(12)を基本とするが、正解候補のもれを防止するするため、最小分割数+1までの単語候補を生成する。
(3)文節候補認定アルゴリズム
最後に上記で得られた単語候補に対して漢字かなの二重マルコフモデルを使用して曖昧性を絞り込む。なお実験では同時に品詞の二重マルコフモデルを使用して、品詞における文節候補の絞り込みの効果も調べた。
3.2 直接選出型文節処理のアルゴリズム
直接選出型文節処理方式における入出力データの流れを図5に示す。
[Input Data] Syllable Matrix
|
Time→ |
|
|
|
Order
of
Candidates
↓ |
ワラクニケイザイノ
パガグミヘピ ピモ
バワプイエシ シ
アタフビゲリ リ
パ テミ ミ |
ア ぺギ ギ
|
|
Word Dictionary
[Intermediate Results] Word Segmentation
|
Time→ |
|
|
ノ
モ
|
Order
of
Candidates
↓ |
ワラ
パガ
バワ
アタ
パ |
クニ
グミ
プイ
フビ
|
ケイザイ
ヘピ ピ
エシ シ
ゲリ リ
テミ ミ |
ア ぺギ ギ
|
|
Word Dictionary
[Intermediate Results] Word Candidates
|
Time→ |
|
|
|
Words
Candidates
↓
|
わが
荒
パパ
藁
綿
バラ |
国
文
組
首
不備
|
経済
消し材
塀材
定材
照り財
|
の
も
野
模
之
乃 |
|
|
Trigram of Kanji-Kana
[Results of Bunsetsu Processing]
Kanji-Kana Bunsetsu Candidates
|
|
Candidates
↓ |
わが国経済の
わが国経済も |
|
|
Fig.5 Algorithm of Direct Selection Method
図5 直接選出型アルゴリズムのデータの流れ
(1)単語認定アルゴリズム
文節単位の音節マトリックスに以下の方法で直接単語辞書を適用し、可能な単語候補をすべて抽出する。
まず音節マトリックスの音節候補をつなぎ合わせた音節列の中に文節を一単語として解釈できる単語候補があるかどうかを単語辞書を使って調べる。図5の例では、9音節を一単語と考え、各音節を組み合わせた単語の有無を調べる。すなわち、4×6×4×4×6×6×1×6×2=27648通りの音節の組み合わせに対して、9音節の全てが一致するような単語が辞書に存在するか否かを調べ、存在すればすべて抽出する。もしそのような単語が存在しなければ音節マトリックスを二つに分割する。図5の例ではそのような単語候補はないので、下記(実線)のようにマトリックスを二つに分割する。
第1ブロック |
第2ブロック |
|
|
イ
ピ
シ
リ
ミ
ギ |
|
|
ワラクニケイザ
パガグミヘピ
バワプイエシ
アタフビゲリ
パ テミ
ア ぺギ |
ノ
モ
|
|
|
|
|
第1ブロック |
第2ブロック |
第1ブロック、第2ブロックの双方に対して前と同様の方法で単語辞書引きを行い、辞書上の単語の有無を調べる。何れかのブロックに対して単語が存在しないときは分割が不適切と考え、第1、第2のブロックの分割の仕方を変える(破線)。
分割された二つのブロックの双方に一つ以上の単語候補が存在するような分割の仕方が無いときは、全体を三つのブロックに分割する。全てのブロックに対して一つ以上の単語候補が存在するようになるまで、この手順を繰り返し、辞書上で解釈可能な最小の分割数を求める。
また、このようにして求めた分割数最小の分割法の全てに対して、ブロック毎に辞書上解釈可能な全ての単語候補を出力する。
図5は最小分割数が4で、4ブロックに分割したときの各ブロックに対する単語候補を示している。
(2)文節候補認定アルゴリズム
前項で抽出された単語候補を組み合わせて得られる漢字かな混じりの文節単語列に対して、3.1(3)と同様の漢字かなの二重マルコフモデルを適用し、順位付けを行う。なお実験では同時に音節および品詞の二重マルコフモデルを用いて、それぞれの情報の効果を調べた。
3.3 両アルゴリズムの違いについて
音節選出型文節処理方式と直接選出型文節処理方式のアルゴリズムでは、使用される情報は同じであるが、その適用順序に違いがある。前者は音節の二重マルコフモデルを最初に使用するので、その後、評価対象となる候補数が大幅に減少する。そのため、全体としての計算量が少ないと言う利点があるが、逆に単語辞書の適用の段階で、正しい文節候補が失われている可能性がある。
これに対して、後者のアルゴリズムでは単語辞書を最初に適用するため、多数の単語候補が生成され、後の処理が重くなるが、正しい漢字かな混じり文の文節候補をもたらす可能性は、より高いと予想される。*1
4.実験方法
4.1 実験の条件
(1)マルコフ連鎖値
マルコフ連鎖値の計算には日経新聞記事74日分(82年1月4日から3月31日)を使用した。これを日本文解析プログラムを使用して形態素に分割し、同時に音節変換を行った。そして、これを再合成して文節単位のデータを作成し、その後、音節、漢字かな、品詞について0重、一重、二重のマルコフ連鎖値を計算した。
ただし実験を簡単にするため、この記事から、記号、外国語読み、数詞の文字のある文は文全体を削除した。その結果、マルコフ連鎖値の計算に使用した文字数は漢字かな混じり文字で数えて約170万文字である。
なお、新聞記事は、マルコフモデルに必要な、すべての組み合わせを持っていない。そのため、連鎖値が0となる組合せが出現する。そのような組み合わせに対しては、統計上の最小値を与える方法や次数の少ない連鎖値との補間で代用する方法(4)などが考えられるが、ここではフロアリングをして確率値をexp(-1000.0)とした。
(2)音節マトリックス
文節処理の入力となる音節マトリックスは、従来の音声認識装置(13)の認識率情報(コンフュージョン・マトリックス)に基づき、以下の条件でコンピュータ・シミュレーションにより生成した。
1)セグメンテーション誤りはないものと仮定する。
2)音節候補の数は最大8個とし、8位までの候補 の中に必ず正しい音節候補があるものとする。
3)音節の認識距離情報は使用しない。すなわち、 音節マトリックスにおける候補順位は無視し、全 て同一の重みと仮定する。
4)音節に長音「ー」、鼻音「カ゜」行、促音「ッ」 の存在を仮定する。これは音声出力用の形式で登 録されて単語辞書とのインターフェースを合わせ るためである。なお、これらの音節の1位正解率 は100%としている。
また、実験には以下の2種類の音節マトリックスを用意した。
1)オープンデータ
マルコフ連鎖値の計算に使用した日本文以外の漢字かな混じり文から生成した文節単位の音節マトリックス。(日経新聞82年1月1日の記事文から抽出)
2)クローズドデータ
マルコフ連鎖値の計算に使用した日本文の漢字かな混じり文から生成した文節単位の音節マトリックス(日経新聞82年1月5日の記事文から抽出)
(3)単語辞書
単語辞書は一般語、使用頻度の高い人名地名などの固有名詞を含む16万語の日本文音声変換用の辞書を使用した。ただし、使用した情報は音節、漢字かな、品詞の三種類である。
5.結果と考察
5.1 実験結果
直接選出型文節処理方式において失敗した文節例と成功した文節例をそれぞれ図6、図7に示す。実験の結果得られた音節、漢字かな、および品詞の文節候補の右端に示した数値は二重マルコフモデルの総積値の自然対数の逆数を文字数で割った値である。したがって値が小さいほど尤度が高いことを示している。なお、出力候補の中で入力と一致する正しい候補は網掛けで示した。
[Correct Data]
|
Syllable |
ハンカク シュウカイ ハ |
Kanji-Kana |
反核 集会 は |
Part of Speech
|
一般名詞 サ変名詞 副助詞
|
|
[Input Data]=Syllable Matrix=
|
ハ ン カ ク シュ ー ガ イ ワ
タ タ プ チュ カ ピ ア
カ パ フ ヌ ア リ バ
ア チャ グ ツ タ シ パ
パ ア チャ ミ
ガ ハ ギ
ハ パ
|
|
[Final Results]
(1) Syllable
|
No. |
Syllable |
Value |
1
2
3
4
5
6
7
8
|
カンガクシューカイワ
ハンパクツーカイワ
ハンタクシューカイワ
カンカクシューカイワ
ハンパクシューカイワ
ハンガクシューカイワ
ハンカクシューカイワ
カンタクシューカイワ
|
2.24
2.29
2.31
2.35
2.35
2.39
2.34
2.40
|
|
(2) Kanji-Kana
|
No. |
Kanji-Kana |
Value |
1
2
3
4
5
6
7
8
|
たんぱくちゅうたいわ
タンパクちゅうたいわ
たん白ちゅうたいわ
たんぱく通貨市場
タンパク通貨市場
感覚ちゅうたいわ
反核ちゅうたいわ
間隔ちゅうたいわ
|
169.17
169.33
184.68
202.26
202.45
202.66
202.72
202.85
|
|
(3)Part of Speech
|
No |
Part of Speech |
Val. |
1
2
3
4
5
6
7
8
|
一般名詞 一般名詞 副助詞
サ変名詞 一般名詞 副助詞
一般名詞 サ変名詞 副助詞
一般名詞 サ変名詞 純体接尾 副助詞
一般名詞 サ変名詞 一般名詞 副助詞
一般名詞 一般名詞 一般名詞 副助詞
サ変名詞 サ変名詞 副助詞
一般名詞 一般名詞 純体接尾 副助詞
|
1.27
1.41
1.42
1.51
1.55
1.55
1.58
1.62
|
|
Fig.6 Example of Experiment (Failure)
図6 実験結果(失敗例)
[Correct Data]
|
Syllable |
ガイコク ギンコー ハ |
Kanji-Kana |
外国 銀行 は |
Part of Speech
|
一般名詞 一般名詞 副助詞
|
|
[Input Data]=Syllable Matrix=
|
ガ イ ホ プ ギ ン コ ー ワ
カ ピ コ ク キ ホ ア
タ リ オ フ リ オ バ
ア ギ グ ピ パ
パ ミ
ラ シ
ワ
|
|
[Final Results]
(1) Syllable
|
No |
Syllable |
Value |
1
2
3
4
5
6
7
8
|
ガイコクギンコーワ
ガイコクキンコーワ
ガイコクキンホーワ
タイコクギンコーワ
タイコクキンコーワ
カイコクギンコーワ
カイコクキンコーワ
タイコクキンホーワ
|
2.17
2.19
2.29
2.29
2.31
2.36
2.37
2.41
|
|
|
(2) Kanji-Kana
|
No |
Kanji-Kana |
Value |
1
2
3
4
5
6
7
8
|
外国銀行は
大国銀行は
開国銀行は
愛国銀行は
来国銀行は
愛国銀行は
買い越不均衡は
カシオ不均衡は
|
2.15
144.80
145.05
145.15
145.15
145.15
223.81
223.85
|
|
|
(3)Part of Speech
|
No |
Part of Speech |
Val. |
1
2
3
4
5
6
7
8
|
一般名詞 一般名詞 副助詞
サ変名詞 一般名詞 副助詞
一般名詞 サ変名詞 副助詞
一般名詞 サ変名詞 一般名詞 副助詞
一般名詞 一般名詞 一般名詞 副助詞
サ変名詞 サ変名詞 副助詞
一般名詞 一般名詞 純体接尾 副助詞
一般名詞 一般名詞 サ変名詞 副助詞
|
1.27
1.41
1.42
1.55
1.55
1.58
1.60
1.67
|
|
|
Fig.7 Results of Experiment (Success)
図7 実験結果(成功例)
このような出力結果を入力文節100件について集計した結果を図8〜9に示す。これらの図から以下のことがわかる。
The Order of Bunsetsu Candedates (候補順位)
Recognition Ratio
(Cumulative)
100
%
90
80
認
70
識
率
60
・
累
積
50
40
30
|
|
|
漢字かな連鎖による絞り込み Ordering by the Chain of Kanji-Kana Characters |
|
|
|
|
|
|
音節連鎖による絞り込み |
Ordering by the Chain of Syllables
|
|
|
|
|
|
品詞連鎖確率による絞り込み |
|
Ordering by the Chain of part of speech |
[Example] |
Bold Lines |
|
Open data
(Unlearned Data) |
|
|
|
|
|
Fine Lines
|
|
Closed Data
(Learned Data) |
|
|
|
|
|
〓 |
0 |
|
|
|
|
|
|
|
|
|
1 2 3 4 5 6 7 8
図8 音節選出型文節処理方式の結果
Fig.8 Recognition Ratio by Syllable Selection Method
Recognition Ratio
(Cumulative)
100
%
90
80
認
70
識
率
60
・
累
積
50
40
30
|
Ordering by the Chain of Kanji-Kana Characters
漢字かな連鎖による
絞り込み |
|
|
|
|
音節連鎖による絞り込み |
Ordering by the Chain of Syllables
|
|
|
Odering by the Chain of part of speech
品詞連鎖確率による絞り込み |
|
|
|
|
|
[Example] |
Bold Lines |
|
Open data
(Unlearned Data) |
|
|
|
|
|
Fine Lines
|
|
Closed Dat
(Learned Data) |
|
|
|
|
|
〓 |
0
|
|
|
|
|
|
|
|
|
|
1 2 3 4 5 6 7 8
The Order of Bunsetsu Candedates (候補順位)
図9 直接選出型文節処理方式の結果
Fig.9 Recognition Ratio by Direct Selection Method
1)音節の文節候補の1位正解率は最大値が直接選出型のクローズドデータで79%、最小値がオープンデータで56%であった。また、8位までの累積正解率は音節選出型と直接選出型での差はなく、クローズドデータで94%、オープンデータで93%であった。
2)漢字かなの文節候補の1位正解率は音節選出型でクローズデータでは83%、直接選出型では84%であった。特に直接選出型では4位までの累積正解率は99%を示した。また、オープンデータでは1位正解率が音節選出型は70%、直接選出型では65%であるが、8位までの正解率は共に90%を越えた。
3)品詞の文節候補の場合は音節や漢字かなの文節候補の場合より正解率が遥かに低く、両方式で見て、1位正解率は27〜42%、8位までの累積正解率は72〜77%にしか過ぎない。しかし、オープンデータとクローズドデータの正解率の差は殆どない。
5.2 考察
(1)マルコフ連鎖値の収束性
クローズドデータとオープンデータの正解率の差は音節、特に漢字かな文字の文節候補において顕著であるのにたいして、品詞の文節候補では差がほとんど認められない。これはマルコフ連鎖値の収束性の問題で、さらに多く日本文を収集することにより両者がお互いに接近する形で、その差は減少すると判断される。
なお、マルコフ連鎖値の収束性を調べるため、今回使用した新聞記事の量と、音節、漢字かな、品詞、それぞれの0重、1重、2重、3重のマルコフ連鎖値のエントロピーの関係を図10に示す。図から品詞、音節、漢字かなの順に、エントロピーの収束性が良いことがわかる。
(2)音節と漢字かなの情報量
図10において音節と漢字かなの特性を比較すると、0,1,3重の場合は音節の方がエントロピーが小さいが、2重の場合は逆に漢字かなの方が小さくなっている点が特徴的である。これは、二重マルコフモデルにおいては、漢字かなの方が情報量が大きく、それ以上、次数を上げても効果は少ないのに対して、音節ではさらに次数を上げればそれだけ効果が得られることを意味していると思われる。
(3)誤りの原因
漢字かなの文節候補の選出において、クローズデータの実験で、正解候補が最終的に8位以内に入らなかった文節を見ると、それらのすべてが、音節選出型の方式では音節の文節候補の失敗に起因し、直接選出型の方式では単語境界の分割数が足りないことに起因していることがわかった。
前者の漏れを防ぐには、音節の二重マルコフモデルで抽出する文節候補の数を増やすことが考えられるが、計算量の増加を伴うので適当なトレードオフが必要となる。また、後者の漏れを防ぐには単なる分割数最小法ではなく、係り受け併用型の分割数最小法(14)を採用した方が良いと考えられる。
6.結論
日本文音声認識において音声の物理的特性を使用した音声認識装置と自然言語処理の間を結ぶ処理として、二重マルコフモデルを用いた文節処理の二つの方法(音節選出型と直接選出型)を提案し、その効果を実験的に求めた。
その結果、両方の方式とも、漢字かな混じりの文節候補を従来の音節の二重マルコフモデルを用いた文節候補で得られた正解率と同じか、それ以上の精度で、生成できることが分かった。これは、漢字かなの二重マルコフモデルの効果は非常に効果的で、大量語彙辞書を用いて、音節から漢字かな混じり文を生成する際に生じる膨大な曖昧性がほぼ完全に解消することを意味している。
音節選出型と直接選出型の文節処理を比べると、音節の文節候補の第1位正解率は、後者の精度が若干高いが両者に大きな差異は認められないことから、音節の二重マルコフモデルには単語内の音節のマルコフの情報がかなり反映されており、音節における文節候補の推定の能力の点でみれば、音節間の二重マルコフモデルは単語辞書に代わり得る情報を持つことが推定される。また漢字かなの文節候補では直接選出型の方が精度は高い。これは漢字かなの二重マルコフモデルはかなり大きな情報量を持っているため、単語の候補が増加しても、これが文節候補の推定に影響を与えていないことがわかる。
オープンデータとクローズドデータの場合の比較では両者の差は音節、漢字かなに比べて品詞の場合、差がない。このことから、品詞の二重マルコフモデルは前2者に比べて小量のデータで収束することが分かるが、これは同時に候補絞り込みに使用される情報量が少ないことも意味しており、実験では文節絞り込みの精度は最も小さくなっている。
本論文では、大量語彙の音声認識におけるマルコフモデルの効果を見る立場から、音声認識装置からの認識距離は使用せず、音節、漢字かな、品詞それぞれの2重マルコフモデルの効果について調べた。したがって今後、これらの情報をくみわせた場合について検討する必要がある。
また、本論文では対象外としたが、今後、音声認識部における脱落、挿入などを含むセグメンテーションの誤りの問題や、文節候補の曖昧性をさらに絞り込むための、文節間文法情報や意味、文脈等情報等の適用方法の検討、また、クローズデータにおいて連鎖値が0である場合の値の定め方等の検討が必要である。
謝辞
本研究では日本文訂正支援システム(9)の辞書を使用したが、これらの辞書は宮崎正弘新潟大教授、安田主幹研究員、高木、島崎両主任研究員等の方々と池原が開発したものである。本研究の手段を実現されたこれらの方々と日頃議論して頂く自然言語処理関連グループの皆様に深謝する。また、有意義な御意見を頂いたHI研嵯峨山主幹研究員(現ATR)、情報研の中村主幹研究員に深謝する。
参考文献
(1) 渡辺,畑崎:"音節をベースとする日本語音声認識", 音声研資,S85ー62,pp.477-484
(2) 松永,好田:"branch&bound法の効果とBottom-up音 節認識を利用した候補選択",音声研資S85ー79,
pp.611-620
(3) 鹿野:"Trigram Modelによる単語音声認識結果の改 善",音声研資,S87ー23,pp.9-16
(4) 村上,荒木、池原,"二重マルコフ音節連鎖確率を使 用した単音節音声入力の改善",SP-88-29,pp.63-70 (1988.6)
(5) 伊藤,中川:"確率オートマトンと品詞の3字組出現 確率を用いた文節音声認識",音講論集,pp.145ー146 (1988.10)
(6) 荒木,村上,池原:"二重音韻マルコフモデルによる 日本語の文節音韻認識候補の曖昧さの解消効果",情 処論,Vol.30,No.4,pp.467-477(1989.4)
(7)坪井、管村、富久、小橋:"文節発声の日本語入力 システムにおける日本語変換法",信学会論文誌,D-2, Vol.j72-D-2,No8,pp.1284-1290(1989.4)
(8) 池原,白井:"単語解析プログラムによる日本文誤字 の自動検出と二次マルコフモデルによる訂正候補の 抽出",情処論,Vol.25,No.2,pp.298-305(1984.3)
(9)池原,安田,島崎,高木:"日本文訂正支援システム (REVISE)",研究実用化報告,Vol.36,No.9,pp.1159 -1167,1987
(10) G.D.Forney:"the Viterbi Algorithm", Proc.of IEEE,Vol.61,pp.268〜278(1973)
(11) 荒木,村上,池原,"m重マルコフモデルを用いた音 節ラティスからの候補絞り込みアルゴリズム",信学 技法CS-90-55,pp.13-18(1990.10.19)
(12)長尾,「日本語情報処理」,信学誌,1984
(13)古井:"日本語単音節音声認識の検討",信学会全大, No.1351,P5-329(1981)
(14)宮崎,"係り受け解析を用いた複合語の自動分割法 ",情処論,Vol.25,No.6,pp.970-979(1984.11)
*1 現在:ATR自動翻訳電話研究所
〒619ー02京都府相楽郡精華町乾谷三平谷
ATR Interpreting Telephony Research
Sanpeidani Inuidani Seika-cho
Soraku-gun Kyoto, 619-02 Japan
*2 現在:福井大学工学部電子工学科
〒910 福井市文京三丁目9−1
Fukui University
3-9-1 Bunkyou Fukui-shi,910 Japan
*1 ビテルビのアルゴリズム(10)の対象は一重マルコフモデルに限定され、抽出される候補も最尤候補一件のみに限られるが、改良型アルゴリズム(11)では一般にn重マルコフ連鎖モデルに適用でき、最尤候補から順番にm位までの候補を抽出できる。
*15章の実験結果(図8と図9の比較)では、上位8候補の累積正解率に若干の差が現れているが、その差は小さい。