5人とも評価の一致した音声において,音響クラスタリング音声の方が良いと評 価された音声が8件あった.これら8件の音声は,従来手法と比べて音声品質が劣 化した8件と考えられる.そこでまず,8件の音声の音響クラスタリング音声およ び言語クラスタリング音声を再度聞くことで,どの箇所に違和感があるかを調査 した.調査結果を表20に示す.
発話内容 | 違和感を感じる箇所 | 違和感を感じる箇所 |
(音響クラスタリング音声) | (言語クラスタリング音声) | |
口笛(ku/chi/bu/e) | e | e |
土下座(do/ge/za) | - | ge |
固唾(ka/ta/zu) | - | zu |
老舗(shi/ni/se) | - | ni/se |
仕事場(shi/go/to/ba) | - | to |
日本史(ni/ho/N/shi) | shi | N |
面子(me/N/tsu) | - | tsu |
山彦(ya/ma/bi/ko) | bi | - |
表20において,``山彦''以外の7つの音声に関しては,音響クラスタリ ング音声の方が良い音声であると感じた.言語クラスタリング音声において,違 和感を感じた箇所の主な原因を以下に示す.
特定の音節の音声品質が劣化した例として,``口笛''の場合,``e''の音節の音 声品質が劣化していた.この問題は,4.1節の手順4に おいて,クラスタから音節素片を選択する際に,現在選択している音節素片以外 の音節素片を選択することで解決できる可能性がある.
接続部の違和感の例として,``老舗''の場合,``ni''と``se''の接続部に違和感 があった.この問題は,各音節素片の接続部を滑らかにつなぐことで解決できる.
継続時間の例として,``仕事場''の場合,``to''の音節の継続時間が非常に長く, ``to''を伸ばしているように聞こえた.この問題は, 4.1節の手順5において,継続時間の最も長い音節素片 を選択するのではなく,継続時間の平均長の音節素片を選択することで解決でき る.
ATR単語発話ラベルの問題の例として,``面子''の場合,``免疫''の``meN''と ``秘密''の``tsu''を接続することで合成している.しかし``秘密''の``tsu''の 前音素環境が``i''であり,また``秘密''のATR単語発話ラベルが誤っているため, 本来``tsu''と聞こえるはずの箇所が``itsu''と聞こえてしまう.よって合成し た音声も``meNtsu''ではなく``meNitsu''と聞こえる.この問題は,ATR単語発話 ラベルを修正することで解決できるが,現時点において修正は考えていない.