next up previous contents
次へ: 自動音素ラベリング 上へ: 982003 自動ラベリングを用いた録音編集型音声合成の研究 戻る: 表一覧   目次

はじめに

近年、音声ガイダンスの文章のように、ガイダンスを利用するユーザーに依存し ない部分(固定部)と、ユーザーに依存する部分(可変部)が存在する文章を合 成する方法として、録音編集方式が広く使われている。これは、固定部と可変部 をそれぞれ別々に録音しておき、出力内容に合わせて、可変部を固定部に挿入す ることによって、出力音声を作成する方法である。

例えば、「明日の天気は○○でしょう。」というガイダンス文を出力する場合、 「明日の天気は」と「でしょう。」は固定部であり、「○○」の部分は、「晴れ」 「曇り」「雨」のような言葉を可変部として準備し、天気の内容に合わせて固定 部に挿入することになる。

録音編集方式では、固定部と可変部をつなげた際の違和感を軽減するために、 一般に同一話者による音声を大量に必要とする。しかし、実際に大量の音声を同 一話者から録音するのは困難である。そこで、解決のために「音節波形接続」方 式が提案されている。音節波形接続方式により作成された合成音声の品質は、十 分実用的であることが過去の論文により報告されている[1]。

しかし、従来提案されている音節波形接続方式では固有名詞を対象としており、 普通名詞に対して有効性は示されていない。また、音声を作成する場合に必要 となる音素ラベリングデータは人手によって作成されるため、コストがかかる点 が問題である。ラベリングの負担の軽減のために、精度に問題は残るものの、自 動的に音素ラベリングを行うシステムも提案されている[2]。

そこで本研究では、まず、音節波形接続方式を用いて普通名詞の合成音声を作成 し、普通名詞に対する有効性と問題点を調べた。その結果、了解度は自然音声と ほとんど変わらず、また自然性も十分であることが分かった。

また、自動ラベリングを使用する場合に合成音声の品質にどの程度影響するのか を調査した。それにより、音節波形接続方式の音声合成における、自動ラベリン グの有効性を調べた。その結果、了解度・自然性ともに、ほとんど差はなく、自 動ラベリングが音節波形接続方式に有効であることが示された。

以下、本稿では、まず2章で本研究で使用した音声合成方式である音節波形接続 方式について説明する。また、自動音素ラベリングについて3章で説明する。そ して、4章で具体的な実験環境と評価方法について述べ、5章で実験結果を示す。 実験結果に対する考察については6章で述べる。



平成14年3月7日