<情処論投稿原稿>
[題名]
日本語音声におけるポーズ位置および
アクセント位置の持つ情報量
Information of Pose and Accent in
Japanese Speech
[著者]
村上仁一* :非会員 Jinnichi Murakami
池原 悟** :会員 Satoru Ikehara
荒木哲郎***:会員 Tetsurou Araki
---------------------------------------------
* :NTTヒューマンインターフェース研究所
** :NTT情報通信処理研究所
***:福井大学工学部
---------------------------------------------
連絡先:
〒238-03 横須賀市武1丁目2356
NTT情報通信処理研究所
MS部 池原 悟
あらまし
自然言語の音声では音節と同時に、アクセント、ポーズ、イントネーションなどの韻律も用いられる。特に、日本語は音節の種類が少ないこともあって同音異語が多いため、音声言語における韻律情報の役割は大きく、その扱いは日本語音声の認識においても考慮すべき重要な課題と考えられる。
本論文では、韻律情報が音声認識において認識率の向上にどの程度役立つかを定量的に把握するための第一歩として、韻律情報の中の基本的な情報であるポーズ位置及びアクセント位置が持つ情報量を、実験的に求めた。
すなわち、音節情報から漢字かな混じり日本文を生成する際、韻律情報の存在によって解釈の曖昧さがどの程度削減できるかという観点から、韻律情報の持つ情報量を求める簡易な方法を提案し、それに基づいて、16万語の単語辞書を持つ大量語彙の環境下で、新聞記事文を対象に実験を行い、韻律情報の有無による多義絞り込みの効果を求めた。その結果、ポーズ位置の持つ情報量は文節当たり平均3.21ビット、ポーズ位置とアクセント位置が合わせ持つ情報量は平均5.16ビットであることが分かった。前者は、曖昧な候補数を平均で10.8%にまで絞り込むことに相当し、後者は候補数を2.8%にまで絞り込むことに相当する。これらの結果、韻律情報は日本語音声認識における曖昧さを解消する上で有効な手がかりになり得ることが確認された。
1.まえがき
一般に書かれた自然言語の文では、話者の認識した内容は、言語の規範(文法)に基づいて文字と関係づけられるため、読者はその規範を手がかりに表現に結び付けられた話者の認識を追体験する。日本語は特に音節の種類が少ないこともあって同音異語が多いが、書き言葉では漢字やかな文字等多くの字種が使用されるため、使われた文字によって単語が特定され易く(1,2)、著者の記述内容を理解する上で助けとなっている。
これに対して、音声化された自然言語の文ではアクセント、ポーズ、イントネーション等の韻律を付与することによって、少ない音節から生じる解釈の困難さを避け、聞き手の理解を助けている。これは、音声の場合における前述の同音異語の問題の解決の手段ともなっている。
ところで従来、音声合成の分野では、漢字かな混じり日本語文を対象に、アクセント、ポーズ、イントネーションなどの情報を自動付与する方法について研究が行なわれてきた(3,4,5)。そこでは、一般名詞、固有名詞、数量表現など多様な語彙と表現を持つ日本文に対して、複数の読みや特殊な読みが存在すること、また単語が複数連接して構成される複合語や文節に対して、アクセントやポーズの位置が変化することなどを考慮して、それらの付与方法が提案されている。これらの結果を見ると、日本語文に対するアクセント、ポーズ及びイントネーションなどの韻律情報は、単に単語レベルで決まるものではなく、単語間の文法的及び意味的な接続関係などを背景とした規則性を持っていることが認められる。
これに対して、このような韻律情報が持っている文法的及び意味的な情報を、解釈の曖昧さの解消に利用して、音声認識の精度を向上させる研究(6)については、まだ見るべきものがない。この理由としては、日本語文の自然な連続音声に対して韻律情報を正しくとらえることが物理的に困難なこと、韻律情報は個人差や地域差があり統一的な取扱いが難しいことなどが上げられる。
本論文では、「情報量は、その情報が存在する場合と存在しない場合での解釈の可能性(曖昧さ)の差で表される」という点に着眼して、日本語音声のポーズやアクセントなどの韻律情報が持つ情報量の評価法を提案する。
すなわち、発話された日本語文に対して正しい音節情報と韻律情報が得られた時に、音節情報のみに基づき音節漢字変換されて得られた漢字かな混じり文候補(7)(文法的、また意味的な誤りを持つ候補を含む)の数と、韻律情報をも用いて得られた漢字かな混じり文候補の数を比較することによって、韻律の持つ情報量を求める。その際、音節と韻律情報から漢字かな混じり文を、如何にして正確に生成するかが問題となるが、この問題は従来、開発されてきた日本文音声出力プログラム(4,8)の機能を用いることにより解決できることを示す。日本文音声出力システムでは、種々の韻律情報を出力するが、ここでは最も基本的な情報である第一ポーズ位置、及び第一アクセント位置が持つ情報を対象とする。
2.ポーズ位置及びアクセント位置が持つ情報の定義 とその測定法
2.1 情報量の測定に関する基本的な方法
情報は確率事象に対して定義され、確率事象Eが生起したこと知った時、
I=ーLOG2P(E) ・・・・・・・・・(1)
の情報量を受け取ったという。但し、P(E)は事象Eの生起確率を示す。
このことは、一般に事象Eが生起したことを知ることによって、対象とする事象系に関する解釈の曖昧さがIビットだけ減少することを意味し、この解釈の曖昧さの減少の度合いが、事象Eの情報量にあたる。この考え方によって、ポーズ位置やアクセント位置が持つ情報量を求めることができる。つまりポーズ位置やアクセント位置の情報を知ることによって、解釈の可能性(曖昧さ)が減少するような事象系を一つ設定し、ポーズやアクセントの情報が存在しない時に得られる解釈の数と、それらの情報が存在する時に得られる解釈の数を比較すればよい。
図1のような音節漢字変換モデルを考えると、韻律の持つ情報量は以下の手順で求めることができる。
[処理1]音節の情報から得られる漢字かな混じり文 を全て出力する。
与えられた音節列を漢字変換Aにより、漢字かな混じり文に変換し、得られた文の集合をSiとする。集合Siの要素をβi(1≦i≦m)とする。
[処理2]音節、ポーズ位置及びアクセント位置の情 報から得られる漢字かな混じり文を全て出 力する。
上と同様、与えられた音節列と韻律情報を漢字変換Bによって漢字かな混じり文に変換し、得られた文の集合をS2とする。集合S2の要素をβ*i(1≦i≦n)とする。
[処理3]両方の漢字かな混じり文の比を計算してそ れを確率Pとする。
集合S1の要素数mと集合S2の要素数nの比をP(=m/n)とすると、韻律の持つ情報量は、(1)式よりI=−Log2Pと表すことができる。
しかし、ここで示した方法を直接実行するには以下の問題があり、容易でない。
@漢字変換Aの正確さ
漢字変換Aの方法としては、単語の文法的意味 的関係を考慮せず、音節情報と一致する漢字候補 (漢字の読みが等しいもの)を単語辞書より全て 抽出し、これらを組み合わせて出来る漢字かな混 じり文を求める方法が考えられるが、このように して求められた漢字かな混じり文候補は、それを 逆に読み上げたとき元の日本文の音節情報と一致 するとは限らない。もとの音節と一致しない候補 は、もとの音節情報を使い切ったとは言えない。
A漢字変換Bの困難さ
漢字変換Bでは韻律情報を活用して漢字かな混 じり文を生成するため、@に加えて韻律情報生成 ルールを逆に適用するシステムを作成する必要が あるが、韻律を含むかな漢字変換のアルゴリズム は確立しておらず、精度良い実験を行なうのは困 難である。
2.2 漢字音節変換を利用したポーズ位置及びア クセント位置の持つ情報量の測定法
(1)実験の手順
前節で述べた問題は従来開発されてきた日本文音声出力システムを図2のように用いることによって容易に解決することができる。また、このシステムを使用することによって、「音節列」と「音節列+韻律」の試験標本を作成するのも容易となる。その手順は、次の通りである。
[手順1]漢字かな混じり文を音声変換によって、音 節、ポーズ位置及びアクセント位置の情報に変換 する(試験標本の準備)。得られた音節列をαと し、音節列+韻律をα*とする。
[手順2]次に音節列αに対して音節漢字変換Aを行 い、漢字かな混じり文βi(1≦i≦m)を出力す る。ここで用いる音節漢字変換Aとは、通常のワ ードプロセッサに用いられているかな漢字かな変 換機能に、鼻音、長音及び「は」、「を」などの 表記が異なる部分に対する変換機能が追加された ものに相当する。
なお、図には明示していないが、音節情報からの変換精度を上げるため、得られた漢字かな混じり文候補は日本文音声変換プログラムを用いて再度音節列に変換し、もとの音節列に一致した候補のみを拾いだして、集合S1とする。
[手順3]以上で得られた漢字かな混じり文βiに対し て、再び音声変換を行って、ポーズ位置及びアク セント位置の付加された音節列の集合S3を求める。 (この音声変換は上記@の音声変換と共通化でき る。)
[手順4]最後に、集合S3の音節+韻律候補を@で求 めた元の正しい音節+韻律であるα*と比較して、 音節列とポーズ位置、アクセントの位置が一致す る漢字かな混じり文候補のみを拾い出す。このよ うにして得られた漢字かな混じり候補をS2の要素 とし、その数nと集合S1の要素数mとの比から、 Pを求める。
(2)評価法と実験方法の等価性
漢字変換と音声変換が、いずれも正しく行なわれると仮定すれば、図2の方法は図1の方法と等価であることを示す。集合S1の求め方は図1と図2で変わらないから両者の集合は一致する。従って、評価法の等価性を示すには、図1と図2で集合S2の要素が一致することを証明すればよい。集合S2の一致は以下の通り証明される。
<ステップ1>
図1において、S2はS1の部分集合であること、及び図1と図2の集合S1は等しいことは明かである。また仮定より音声変換は正しく行なわれるから、図2においてS1の要素とS3の要素は1対1に対応する。従って、図2におけるS3はS2の各要素に対応する要素を漏れなく含む。
<ステップ2>
図2において、仮定より漢字変換Bは正しく行なわれるから、集合S2の要素βi*を音節韻律列に逆変換すれば、変換結果はいずれもα*に一致することが保証される。従って、S3の要素の内、α*と一致したαiを抽出し、それに対応するS1の要素βiを拾い出せばそれがS2の要素である。
<ステップ3>
以上から、集合S3の要素の内、α*に一致するものの数を求めるとその集合は図1の集合S2と一致しその要素数はnである。
図1の代わりに図2の方法を使用しても結果は保証されることが証明された。現状技術からみて、技術的に未解決な漢字変換Bのプログラムを使用する図1の方法より、技術の進歩によって精度の向上した日本文音声変換プログラムを使用する図2の方法の方が、正確な結果が得られるものと期待される。
3.実験の条件
3.1 入力文の種類と入力単位
文単位の連続音声認識に比べて、当面、文節単位の音声認識が急務と考えられるので、実験では入力単位を文節とする。前章では文単位の韻律情報量の評価方法を示したが、入力単位を文節とする場合も、まったく同様である。
実験に用いる日本語文節は、新聞の一般記事(1982年の日経新聞)より任意の連続した文から50文節を選択した。実験で使用した文節を表1に示す。
3.2 漢字音節変換
漢字音節変換では、日本文訂正支援システムREVISEの(8)音声出力機能(日本文音声出力システムJTOSを内包する)を用いる。本システムの音声出力機能では、3種類のポーズ長や、2種類のアクセントなど多様な韻律情報が出力されるが、本実験では第一ポーズ位置と第一アクセント位置の情報だけを用いる。また、新聞記事を対象としたJTOSの品質実験の結果からみて、変換精度は、漢字かな混じり文の音節への変換では99.8%(文字単位)、韻律の付与では95%(文節単位)の精度が期待できる。
3.3 音節漢字変換
音節漢字変換では文節数最小法(9)を使用した。ただし生成候補の漏れを防ぐため、分割数が「最小分割数+1」までの候補を抽出した上で、REVISEによって逆変換し、もとの音節と一致するものを集めて集合S1の要素とした。これにより、読み上げたとき音節がもとの音節列に一致する漢字かな混じり候補は、ほぼ漏れなく抽出できると期待されるが、分割の違いから同じ表記の漢字かな混じり文が重複して出力されることが考えられる。このような場合は、重複する漢字かな混じり文を一つ残し、残りは削除した。
なお、音節漢字変換に使用した単語辞書は約16万語である。
3.4 情報量の種類
アクセントは二つのポーズに挟まれたアクセント区間の音節列に対して付与されることに留意し、実験ではポーズの情報量とポーズとアクセント両方の情報量との二つの場合について求める。
すなわち、韻律の情報量Iiを、
Ii=-LOG2(Pi)
とし、以下のi=1,2の場合についてIiを求める。
@ポーズ位置の情報量:i=1
音節及びポーズ位置が一致
する漢字かな混じり文
P1=
音節情報が一致する漢字かな混じり文
Aポーズ位置とアクセント位置の情報量:i=2
音節、ポーズ位置、及びアクセント
位置が一致する漢字かな混じり文
P2=
音節情報が一致する漢字かな混じり文
4.実験結果
4.1 漢字かな混じり文節候補の数の比較
例として、標本内の第1文節「大蔵省は」に対して得られた漢字かな混じり文節候補の一部を図3に示す。図では音節、韻律を比較して集合S1とS2の要素を決定する手順を示している。
同様して得られた標本文節50件に対する実験結果を図4、図5に示す。図4では標本の各文節に対して得られた漢字かな混じり文節候補の数を、また、図5では、音節の一致する漢字かな混じり文節の数に対する各漢字かな混じり文節の数の比を示している。ただし、文節番号34以降は省略した。また、グラフ中で空白になっている文節は漢字変換されて出力された漢字かな混じり文の数がスケールを超えるため記載しなかった。
これらの結果を用いて、標本文節50件に対する漢字かな混じり文節候補数の平均値を求めると、表2、図6の結果を得る。また、表2から(1)式を用いて、最終的に韻律の持つ情報量は表3の通りと求まる。
4.2 結果の考察
以上の結果から、アクセント、ポーズをあわせた韻律情報量は5.16ビットと大きく、音節のみから音節漢字変換するのに比べて、候補数を1/36に絞り込む効果が期待できることが分かる。
なお、文節毎に見れば、漢字変換によって得られる漢字かな混じり文節の候補数と、その韻律の一致する候補数の割合は大きなばらつきがあるが、文節を主語(主題文節)、述部、その他の文節に分けて集計した結果では、文節の種類の違いによる韻律情報の差は余り認められなかった。
5.追加実験と結果の検討
5.1 漢字の読みの知識の情報量
日本語の漢字には複数の読みが存在し、前後の漢字や、意味によって読み方が変化する。このため音節を漢字辞書を用いて漢字かな混じり文に変換しても、これを再び音節に変換した場合、元の音節には戻るとはかぎらない。そこで実験では日本文音声変換システムを用いて逆変換を行ない、もとの音節に一致したものをS1の要素としたが、ここでは漢字かな混じり表現の読みの知識の持つ情報量を推定評価するため、逆変換によってもとの音節列に一致するものの割合Pを求める。
音節の一致する漢字かな混じり文の数
P=
文節漢字変換が出力する漢字かな混じり文の数
とすると、P=0.209となるから、読みの知識の持つ情報量I=−LOG2(P)は2.26ビット、また分散は0.88となった。
これは韻律の持つ情報量に比べて若干小さいが、無視出来ない情報量である。すなわち、単語が連なっているときは、人は読みの知識として、単語辞書に記載されている単語読み方以外の知識も使って、それを読んでいるのであり、その知識も無視できない情報量を持っていることが分かる。
5.2 文節内文法情報との比較
前章で得られた韻律の情報量と日本語の持つ文節内の文法情報とを比較するため、図7の方法で日本文の誤り検出プログラム(REVISE)を用いて、文節内文法情報による漢字かな混じり文節候補の絞り込み実験を行なった。REVISEは文法情報や誤用語辞書を使って単語レベルでの日本文の誤りを検出するプログラムであるが、入力を文節単位とした場合は文節内の文法ルールが適用されて、誤字脱字などの誤りを検出する機能を持つ。誤り検出の精度は約90%である。
図2の実験で得られた漢字かな混じり文候補の集合S1を入力し、誤り無しと判定された漢字かな混じり文をの集合をS4、誤りありと判定された漢字かな混じり文の集合をS5とし、それぞれの要素数をm4,m5とすると、文節内文法の情報量はP=m4/m としてPを求め、これを式(1)に代入して求めることができる。
この実験結果をまとめると以下に通りである。
@ S1の内、明確な誤りとしてS5に分類されるもの の数=14.5%
A S1の内、誤りは検出できないとしてS4に分類さ れたもの=85.5%
なお実験では、S4の内、73.5%は誤りの 可能性があることが指摘されたが、指摘内容の大 半は同音異語の存在であった。
この結果から文法情報の持つ情報量を計算すると、情報量は小さく、I=0.23ビットとなり、絞り込みの効果は小さい。このことは、解釈の曖昧性としては同音異語の問題が大きいのに対して、同音異語の曖昧性は単語接続規則などの文法規則では余り期待できないことを示している。
以上の実験から、音声認識においては文法情報よりも韻律情報の方がより重要であることが分かった。
4.むすび
日本語音声におけるポーズ、アクセント等の韻律の持つ情報量が、日本文音声出力プログラムを応用して求められることを示し、文節単位に入力された日本語に対して、実験的にポーズの位置とアクセントの位置の持つ情報量を求めた。
その結果、ポーズ位置が持つ情報量は文節当たり平均3.21、ポーズ位置及びアクセント位置を併せた情報量は5.16になることがわかった。これは音節から、漢字かな混じり文への変換において生じる解釈の多義を、2.8%にまで正しく絞り込むことに相当する。同時に行なった文節内文法情報による解釈絞り込み実験の結果と合わせてみると、音節情報からの漢字かな混じり文生成においては、同音異語の問題が大きなウエイトを持つが、文節内文法情報はこの問題に無力であるのに対して、韻律情報はかなり有効であると言える。
なお実験では、文節単位の音声入力を考え、文節単位入力の場合の韻律情報量を求めたが、今後は文単位入力の場合についても検討する必要がある。その場合は、音節漢字変換における漢字かな混じり文の候補数が膨大となる点で工夫が必要となるが、日本文の文節相互間の係り受け関係によって、もたらされる情報量などについても、調べて比較することが期待される。
また、今回は入力として正しい音節列を仮定したが、音節自身に複数の認識候補のある場合も含めて、音節マルコフ連鎖や漢字マルコフ連鎖などのマルコフ連鎖情報とアクセント位置、ポーズ位置の情報の組み合わせ方等についても検討することが必要がある。
謝辞
本研究では日本文音声出力システムJTOSとこれを応用した日本文訂正支援システムREVISEを実験に使用したが、これらのシステムは著者の一人が宮崎正弘新潟大教授、安田主幹研究員、高木、島崎両主任研究員等の方々と共に開発したものである。本研究の手段を実現されたこれらの方々と日頃議論して頂く自然言語処理関連グループのみなさまに深謝する。
参考文献
(1) 池原,白井:"2次3次混合型マルコフモデルによる 日本文誤字訂正候補の抽出",第31回情処全大,7h-5, pp.1405-1406(1985)
(2)池原,白井:"単語解析プログラムによる日本文誤字 の自動検出と二次マルコフモデルによる訂正候補の 抽出",情処論,Vol.25,No.2,PP.298〜305(1984)
(3) 箱田,佐藤:"文音声における音調規則",信学論,
D-104,Vol.J63-D,pp.715(1980)
(4) 宮崎,大山:"日本音声出力のための言語処理方式", 情処論,Vol.27,NO.11(1986)
(5) 鈴木,斉藤:"文構造に応じたポーズ長の制御",日本 音響学会講演論文集,2-7-15,pp.199(1989)
(6) 村上,荒木,池原:"音声におけるポーズ長およびア クセント位置の情報量の考察",日本音響学会講演論 文集,3-3-11,pp.89(1989)
(7) 荒木,村上,池原:"2重音節マルコフモデルによる 日本語の文節音節認識候補の曖昧さの解消効果",情 処論,Vol.30,No.4,pp.467〜447(1989)
(8) 池原,安田,島崎,高木:"日本文訂正支援システム", NTT研究実用化報告,Vol.36,No.9(1987)
(9) 長尾:日本語情報処理,電子通信学会誌(昭和59年)
英文アブストラクト
[Title]
Information of Pose and Accent in
Japanese Speech
[Authors]
Jinnichi Murakami* :Non-Member
Satoru Ikehara** :Member
Tetsurou Araki** :Member
---------------------------------------------
* NTT Human Interface Laboratories
** NTT Communications and Information
Processing Laboratories
*** Fukui University
Abstract