提案した合成方法が有効であった理由として,以下の点を考えている.
本論文の合成対象は「地名」「姓名」などの固有名詞であるため,必要な音韻 の種類や韻律のバリエーションは限定されている.
ナレータ(発話者)になじみのない地名は,同一のアクセント型で 発声されることが多い.そのため,多くの固有名詞が同一のアクセント型で 発話されている.
合成に利用した音声は,聞き取りやすいように比較的,低速で明瞭で均一に発声され ている.
これらを考慮すると,本論文で提案した合成方法は,特に固有名詞の音声合成
に,有効である可能性がある.
本論文で提案した手法の有効性を普通名詞で評価するために,ATRのAセット 5240単語を用いて実験を行った.話者にはAセットの女性話者10名の中から, 比較的ピッチの低いFTKとFYNを利用した.合成方法や評価方法は 4.章と同様である. ただし,評価した単語は4モーラ語の50単語である.合成したリストの一部を 表6に示す.
表記 | よみ | 表記 | よみ |
体積 | たいせき | 団結 | だんけつ |
人格 | じんかく | 間接 | かんせつ |
バイ菌 | ばいきん | 段階 | だんかい |
媒介 | ばいかい | 面接 | めんせつ |
栽培 | さいばい | 間隔 | かんかく |
催促 | さいそく | 国立 | こくりつ |
また,評価実験の被験者は5名で行ない,評価音声は文ではなく単語とした. つまり,合成した単語の前後にガイダンスをつけずに単語了解度試験およびオ ピニオン評価を行った.得られた実験結果を表 7に示す.
|
|
||||||||||||||||||||
FTK | FYN | 平均 | FTK | FYN | 平均 | ||||||||||||||||
|
99.8 | 100.0 | 99.9 | 2.96 | 3.26 | 3.11 | |||||||||||||||
自然音声 | 100.0 | 100.0 | 100.0 | 4.15 | 4.12 | 4.14 | |||||||||||||||
|
99.6 | 99.8 | 99.7 | 2.13 | 2.28 | 2.21 |
今回の合成した単語は普通名詞である.そのため地名の実験と比較すると,類 推ができるため,単語了解度はかなり高くなった.しかし,全体の傾向は地名 の実験と大きな差はなかった.本論文で提案した手法では99.9%となり,自然 音声の100%には及ばないが,市販の合成音声99.6%より高い値を得た.また, オピニオン評価も本論文で提案した手法は3.11が得られた.自然音声の4.14と 比較すると低いが,市販の合成音声2.21と比較すると高い自然性をもっている ことが示された.
この結果から,本論文で提案した手法の有効性が普通名詞でも確認 できたと考えている.
本論文では,単語のアクセント型を考慮せずに,単語のモーラ数,単語内のモー ラ位置,前後の音素環境をパラメータとして使用することで,高い単語了解度 と自然性を持つ合成音声を得た.この結果は,固有名詞の多くは同一のアクセ ント型を持っているためと思われる.
しかしながら,可能性は低いが,アクセント型が大幅に異なる単語を合成する 場合や,録音リストにアクセント型が大幅に異なる単語を含む場合がある.こ のときの解決方法を以下に考察する.
本論文で対象にしたのは,録音編集型の固定部の合成である.したがって,合 成した音声の品質が低い場合,自然音声にすることで問題が解決できる.特に 2モーラの単語は,アクセントによって意味が異なるため,本論文で提案した 方法は適用範囲外で録音するのがbetterであると考えている.
本論文では,音節部品は種類ごとに1つずつ準備した.したがってアクセント 型が大幅に異なる単語が録音リストにある場合,合成した音声の品質が低下す る可能性がある.
しかし,通常,音節部品の候補は複数得られる.このような場合,ピッチ周波 数やケプストラム係数やパワーなどのパラメータを考慮して,つながりの良い 音声部品を選択する,などの方法がある.この解決方法により,アクセント型 が異なる単語が録音リストにあっても,問題となる音節部品が使用されなくな ると考えている.
評価実験においてオピニオン評価が悪いサンプルを調べてみると,母音ー母 音,母音ー半母音など有声音の接続部分における不連続感が悪影響を及ぼして いることがわかった.このようなサンプルを減らして全体的に音質を上げるた めに,以下のことを検討している.
本論文では,音節部品は種類ごとに1つずつ準備した.しかし,同一種類の音 節部品の候補は複数得られる.この場合,ピッチ周波数やケプストラム係数や パワーなどのパラメータを考慮して,よりつながりの良いものを選択することで, より高品質な合成音声が得られると考えられる.