本論文では-gramモデルを使用した連続音声認識システムの概要と自由発 話認識のための認識アルゴリズムと自由発話のための言語モデルについて述 べた。各章の内容は以下の通りである。
第2章では、第4章以降の研 究内容の理解を用意にするために、 音声認識システムを実現するために必要 な要素技術について述べた。2.1節では、HMMの学習方法 (Baum-Welch アルゴリズム)やViterbiサーチについて述べた。 2.2節では、連続音声認識システムのアルゴリズムについて述べた。 認識アルゴリズムには多くの種類があるが、ここではtree-trellisサーチと Viterbiサーチ ( one-pass DP ) について述べた。また、2.3節では、音声認識アルゴリズムにおいて計算量およびメモリー量を 削減する方法について述べた。
第3章では言語をマルコフモデルで表現したときのデー タ量と収束性について述べた。調査項目としては、主にエンロトピーとカバー 率である。3.1節では新聞記事について、 3.2節ではX線CT所見作成の文章について、 3.3節ではATRの国際会議のデータベースについて述べた。 これらの研究の結果、全テキストデータの98%はマルコフモデルで近似できる が、残り2%が収束しないことが示された。 これは、言語モデルとしてマルコフモデルを選択したときの妥当 性に関して、滅多に出現しない言語現象は、あえてモデルに適合 させる必要がないと判断すべきであると考えられる。
第4章では、日本語における-gramの有効性について述べた。 4.1節では、かなや漢字や品詞の bigramおよびtrigramの有効性を、 新聞記事を入力にシュミレーションで効果を確かめた。そして、この結果、デー タが大量にあればtext-open dataでも、高い認識性能が得られることが示され た。4.2節では、単語のbigramの有効性を実際の音声認識実験を行なって 調べた。入力文は医療用X線CTの所見作成である。この実験では、貧弱な音 響モデルでも、言語モデルに単語bigramを使用することにより、高い文節 認識率が得られることを示した。4.3節では、 ATRの国際会議の予約のタスクにおいて、連続分布型HMMと単語trigramを使用し た文認識結果について報告した。これらの実験から、言語の-gramモデルは 有効であることを示した。
第5章では、自由発話認識のアル ゴリズムとその実験結果について述べた。自由発話では間投詞や、言い淀みや 言い誤りおよび言い直しなどが頻繁に出現する。このような発話様式では、認 識精度の高い音響モデルの作成は困難であると考えた。そこで認識性能を向上 させるため、perplexityの低い言語モデルと、そのサーチ問題について研究し た。5.1節においてる間投詞や、言い淀みや言い 誤りおよび言い直しなどの対応方法について述べた。これらの間投詞や言い直 しは文の全ての場所に出現する可能性がある。そこでこれらの単語を、音響モデルでは音素系列として認識しながら、 言語モデルではスキップすることで、自由発話の認識が可能になる。5.3節では、実際に自由発話の認識実験を行い、その結果について述べた。この実験の結果、 このアルゴリズムの有効性が確かめられた。
第6章では、自由発話の特徴について言語的な面と音響 的な面から研究した。6.1節では、大量の対話デー タから言語の特徴について述べた。この結果、対話文の50% は「あのー」、 「えーと」などの間投詞を含み、言い直しは約10%に出現する [49]ことが示された。6.2節では、 4人の話者における自由発話の言語的な違いについて述べた。この結果、間投 詞として話す言葉に個人差があるが、出現頻度はほぼ同等であることが示され た。6.3節では、4人の話者について朗読発話 と自由発話の音響的な違いについて述べた。そして、音素認識率で両発話の違 いを調査したところ、あまり大きな差は無いことが示された。
第7章では、音声情報に含まれている韻律情報の 情報量について述べた。韻律情報は, パワー, 継続時間などの多くの要素 から構成されているが、本章では、この中から特にアクセント句境界の位置お よびアクセント核の位置の持つ情報量に焦点を当てて情報量を測定した。 7.1節では、その基本的な測定方法について述べた。 韻律情報を測定する方法としていくつか考えられるが、ここでは、仮名漢字変 換において出力される漢字仮名交じり文の候補の数の減少度という点に着目し て、韻律の持つ情報量を研究した。実験の結果、アクセント句境界の位置が 持つ情報量は 3.21bit、アクセント核の位置の持つ情報量は 1.97bit、アクセ ント情報が持つ情報量は 5.16bitであることが示された。この量はかなり大き いと思われる。
第8章では、 異なる 個の信号源より生成された信号系列が、どの信号源 から生成されたのかを分割・識別する問題について述べた。 8.2節では、Ergodic HMMを用いた問題の解決方法を提示した。 8.3節では、 応用例として複数話者発話の識別をあげ、実験により識別性能を示した。 8.4節では、この実験結果について述べた。 この実験の結果、複数話者発話の識別においては341ms程度の長時間窓分析し たLPCケプストラムを用いることにより、より良好な識別性能が得られること、 および尤度の高いモデルを選択することにより平均識別率は向上することが得 られた。
第9章では、Ergodic HMMを利用した確率付ネットワー ク文法の自動学習について述べた。Ergodic HMMと確率つきネットワーク文法 が類似した構造を持ち、同種のパラメータで表現される。したがって、大量のテキス トデータからBaum-Welch アルゴリズムを用いてHMMのパラメータを推定することによって 確率付ネットワーク文法の自動獲得が可能になる。 9.1節では、品詞を入力として、 HMMによる日本語対話文の文節内における形態素の品詞連鎖のモデル化を行なっ た。この実験の結果、経験的に得られている生成文法に似た形態の確率つきネッ トワーク文法を自動的に獲得することが示された。9.2節で は、実際の会話から作成した単語列をErgodic HMMに学習させて、確率つきネッ トワーク文法を自動的に抽出することを試みた。その結果、Ergodic HMMの構 造は学習データの特徴をとらえた文法的な特徴を示しており、単語を文中での 機能によって分類して出力していることがわかった。また、Ergodic HMMの状 態数が増えるほど詳細な表現が可能となり、より精密な単語の分類を行なって いることがわかった。 9.3節では、メモリ量および計算量を 削減した Baum-Welch アルゴリズムを提案した。 このアルゴリズムを用いることにより状態数が多いErgodic HMMの学習が可能になった。 そして、得られたErgodic HMMを言語モデルとして連続音声認識の実験を行なった。この認識実験の結果、単語 bigramよりも高い性能が得られ、提案したアルゴリズムの有効性が示された。
今後の課題としてまずあげられるのは、より大量のテキストデータを収集した とき、text-open data と text-closed data の認識率の差がどこまで接近する かを調査することである。新聞記事の研究から、約200万文字のテキストデータ を収集すれば、text-open dataとtext-closed dataにおいて認識性能の差は小 さいことが示された。しかし、まだ差がある。
また、大量のテキストが入手できないときの対応策も必要である。そのために、 言語モデルの分野依存性を抽出し、適合させる研究が必要と思われる。そして ルールベースと確率ベースの言語モデルの結合の研究も必要になる。また、1 つの解決策としては、本論文で述べた確率付ネットワーク文法に人間によって 修正を加える方法も考えられる。
最後に、自由発話認識における音響モデルの問題がある。この論文では、 garbageモデルは、良い結果を示さなかった。しかしgarbageモデルには、多く の作成方法がある。これらを研究する必要がある。
謝辞
この研究にあたって多くの人の協力を得ました。
新聞記事の解析には日本文訂正支援システムの辞書を使用しました。これらの辞書 は宮崎 正弘氏(当時NTT、現在新潟大教授)、安田 恒雄氏(NTT)、高木 伸一郎 氏 (NTT)、島崎 勝美氏(NTT)の方々と池原 悟氏(当時NTT、現在鳥取大学)が 開発したものを使用させていただきました。また、認識実験において用いたHMMの 特定話者モデルは山口耕一氏(当時ATR、現在シャープ株式会社)から、不特定話 者モデルは小坂哲夫氏(当時ATR、現在キヤノン株式会社)から頂きました。また、 磯谷 亮輔氏(当時ATR、現在NEC)にはdeleted-interpolationの値や単語の trigramを用いたViterbiサーチのアルゴリズムに関してコメントを頂きました。ま た、Baum-Welchの学習アルゴリズムに関してNTT ヒューマンインターフェース研究 所の今村 明弘氏から協力を頂きました。また確率付きネットワーク文法の研究に は田本 真詞氏(当時 東京工業大学、現在NTT) や 山本 寛樹氏(当時 東京工業 大学、現在 キヤノン) の協力を得ました。自由発話の言語のデータベースは、 ATR音声翻訳通信研究所第一研究室長の匂坂 芳典氏や江原 暉将氏(当時ATR、現 NHK)の指示のもとに作成されたものを使用いたしました。またX線CT所見作成のデー タベースに関し坪井 俊明(NTT ヒューマンインターフェース研究所)の協力を得 ました。 また、ATR音声翻訳通信研究所の森元 逞室長や飯田 仁室長の他、各研究 員に多くの協力をいただきました。そして、音声翻訳通信研究所 山崎 泰弘社長お よび第一研究室匂坂 芳典室長には研究の機会を与えて頂きました。さらに音声翻 訳通信研究所の第一研究室の方々には熱心な御討論と有益な御助言をいただきまし た。また、荒木 哲朗氏(当時NTT、現在福井大学)や、杉山 雅英氏(当時ATR、現 在会津大学)や 嵯峨山 茂樹氏(当時ATR、現在NTT)には、この研究に際し多くの 助言を頂きました。
そして、本論文をまとめるに当たり、種々のご指導、ご教示を頂きました豊橋技術科 学大学情報工学系の中川 聖一教授に心から感謝致します。同教授には、本研究の 遂行にあたっても種々のご相談を頂きました。また、本論文について多くの御意見、 御助言を頂きました、金子 豊久教授および増山 繁助教授に深く感謝いたします。 最後に、NTT情報通信研究所の東田 正信氏にはこの論文をまとめる時間と機会を頂 きました。
これらの皆様に感謝致します。