次へ: 文献目録 上へ: 確率的言語モデルによる自由発話認識に関する研究 戻る: まとめ目次

結論

本論文では-gramモデルを使用した連続音声認識システムの概要と自由発話認識のための認識アルゴリズムと自由発話のための言語モデルについて述べた。各章の内容は以下の通りである。

第2章では、第4章以降の研究内容の理解を用意にするために、音声認識システムを実現するために必要な要素技術について述べた。2.1節では、HMMの学習方法 (Baum-Welch アルゴリズム)やViterbiサーチについて述べた。 2.2節では、連続音声認識システムのアルゴリズムについて述べた。認識アルゴリズムには多くの種類があるが、ここではtree-trellisサーチと Viterbiサーチ ( one-pass DP ) について述べた。また、2.3節では、音声認識アルゴリズムにおいて計算量およびメモリー量を削減する方法について述べた。

第3章では言語をマルコフモデルで表現したときのデータ量と収束性について述べた。調査項目としては、主にエンロトピーとカバー率である。3.1節では新聞記事について、 3.2節ではX線CT所見作成の文章について、 3.3節ではATRの国際会議のデータベースについて述べた。これらの研究の結果、全テキストデータの98%はマルコフモデルで近似できるが、残り2%が収束しないことが示された。これは、言語モデルとしてマルコフモデルを選択したときの妥当性に関して、滅多に出現しない言語現象は、あえてモデルに適合させる必要がないと判断すべきであると考えられる。

第4章では、日本語における-gramの有効性について述べた。 4.1節では、かなや漢字や品詞の bigramおよびtrigramの有効性を、新聞記事を入力にシュミレーションで効果を確かめた。そして、この結果、データが大量にあればtext-open dataでも、高い認識性能が得られることが示された。4.2節では、単語のbigramの有効性を実際の音声認識実験を行なって調べた。入力文は医療用X線CTの所見作成である。この実験では、貧弱な音響モデルでも、言語モデルに単語bigramを使用することにより、高い文節認識率が得られることを示した。4.3節では、 ATRの国際会議の予約のタスクにおいて、連続分布型HMMと単語trigramを使用した文認識結果について報告した。これらの実験から、言語の-gramモデルは有効であることを示した。

第5章では、自由発話認識のアルゴリズムとその実験結果について述べた。自由発話では間投詞や、言い淀みや言い誤りおよび言い直しなどが頻繁に出現する。このような発話様式では、認識精度の高い音響モデルの作成は困難であると考えた。そこで認識性能を向上させるため、perplexityの低い言語モデルと、そのサーチ問題について研究した。5.1節においてる間投詞や、言い淀みや言い誤りおよび言い直しなどの対応方法について述べた。これらの間投詞や言い直しは文の全ての場所に出現する可能性がある。そこでこれらの単語を、音響モデルでは音素系列として認識しながら、言語モデルではスキップすることで、自由発話の認識が可能になる。5.3節では、実際に自由発話の認識実験を行い、その結果について述べた。この実験の結果、このアルゴリズムの有効性が確かめられた。

第6章では、自由発話の特徴について言語的な面と音響的な面から研究した。6.1節では、大量の対話データから言語の特徴について述べた。この結果、対話文の50% は「あのー」、「えーと」などの間投詞を含み、言い直しは約10%に出現する [49]ことが示された。6.2節では、４人の話者における自由発話の言語的な違いについて述べた。この結果、間投詞として話す言葉に個人差があるが、出現頻度はほぼ同等であることが示された。6.3節では、4人の話者について朗読発話と自由発話の音響的な違いについて述べた。そして、音素認識率で両発話の違いを調査したところ、あまり大きな差は無いことが示された。

第7章では、音声情報に含まれている韻律情報の情報量について述べた。韻律情報は, パワー, 継続時間などの多くの要素から構成されているが、本章では、この中から特にアクセント句境界の位置およびアクセント核の位置の持つ情報量に焦点を当てて情報量を測定した。 7.1節では、その基本的な測定方法について述べた。韻律情報を測定する方法としていくつか考えられるが、ここでは、仮名漢字変換において出力される漢字仮名交じり文の候補の数の減少度という点に着目して、韻律の持つ情報量を研究した。実験の結果、アクセント句境界の位置が持つ情報量は 3.21bit、アクセント核の位置の持つ情報量は 1.97bit、アクセント情報が持つ情報量は 5.16bitであることが示された。この量はかなり大きいと思われる。

第8章では、異なる個の信号源より生成された信号系列が、どの信号源から生成されたのかを分割・識別する問題について述べた。 8.2節では、Ergodic HMMを用いた問題の解決方法を提示した。 8.3節では、応用例として複数話者発話の識別をあげ、実験により識別性能を示した。 8.4節では、この実験結果について述べた。この実験の結果、複数話者発話の識別においては341ms程度の長時間窓分析したLPCケプストラムを用いることにより、より良好な識別性能が得られること、および尤度の高いモデルを選択することにより平均識別率は向上することが得られた。

第9章では、Ergodic HMMを利用した確率付ネットワーク文法の自動学習について述べた。Ergodic HMMと確率つきネットワーク文法が類似した構造を持ち、同種のパラメータで表現される。したがって、大量のテキストデータからBaum-Welch アルゴリズムを用いてHMMのパラメータを推定することによって確率付ネットワーク文法の自動獲得が可能になる。 9.1節では、品詞を入力として、 HMMによる日本語対話文の文節内における形態素の品詞連鎖のモデル化を行なった。この実験の結果、経験的に得られている生成文法に似た形態の確率つきネットワーク文法を自動的に獲得することが示された。9.2節では、実際の会話から作成した単語列をErgodic HMMに学習させて、確率つきネットワーク文法を自動的に抽出することを試みた。その結果、Ergodic HMMの構造は学習データの特徴をとらえた文法的な特徴を示しており、単語を文中での機能によって分類して出力していることがわかった。また、Ergodic HMMの状態数が増えるほど詳細な表現が可能となり、より精密な単語の分類を行なっていることがわかった。 9.3節では、メモリ量および計算量を削減した Baum-Welch アルゴリズムを提案した。このアルゴリズムを用いることにより状態数が多いErgodic HMMの学習が可能になった。そして、得られたErgodic HMMを言語モデルとして連続音声認識の実験を行なった。この認識実験の結果、単語 bigramよりも高い性能が得られ、提案したアルゴリズムの有効性が示された。

今後の課題としてまずあげられるのは、より大量のテキストデータを収集したとき、text-open data と text-closed data の認識率の差がどこまで接近するかを調査することである。新聞記事の研究から、約200万文字のテキストデータを収集すれば、text-open dataとtext-closed dataにおいて認識性能の差は小さいことが示された。しかし、まだ差がある。

また、大量のテキストが入手できないときの対応策も必要である。そのために、言語モデルの分野依存性を抽出し、適合させる研究が必要と思われる。そしてルールベースと確率ベースの言語モデルの結合の研究も必要になる。また、１つの解決策としては、本論文で述べた確率付ネットワーク文法に人間によって修正を加える方法も考えられる。

最後に、自由発話認識における音響モデルの問題がある。この論文では、 garbageモデルは、良い結果を示さなかった。しかしgarbageモデルには、多くの作成方法がある。これらを研究する必要がある。

謝辞

この研究にあたって多くの人の協力を得ました。

新聞記事の解析には日本文訂正支援システムの辞書を使用しました。これらの辞書は宮崎正弘氏（当時NTT、現在新潟大教授）、安田恒雄氏（NTT）、高木伸一郎氏（NTT）、島崎勝美氏（NTT）の方々と池原悟氏（当時NTT、現在鳥取大学）が開発したものを使用させていただきました。また、認識実験において用いたHMMの特定話者モデルは山口耕一氏（当時ATR、現在シャープ株式会社）から、不特定話者モデルは小坂哲夫氏（当時ATR、現在キヤノン株式会社）から頂きました。また、磯谷亮輔氏（当時ATR、現在NEC）にはdeleted-interpolationの値や単語の trigramを用いたViterbiサーチのアルゴリズムに関してコメントを頂きました。また、Baum-Welchの学習アルゴリズムに関してNTT ヒューマンインターフェース研究所の今村明弘氏から協力を頂きました。また確率付きネットワーク文法の研究には田本真詞氏（当時東京工業大学、現在NTT）や山本寛樹氏（当時東京工業大学、現在キヤノン）の協力を得ました。自由発話の言語のデータベースは、 ATR音声翻訳通信研究所第一研究室長の匂坂芳典氏や江原暉将氏（当時ATR、現 NHK）の指示のもとに作成されたものを使用いたしました。またX線CT所見作成のデータベースに関し坪井俊明（NTT ヒューマンインターフェース研究所）の協力を得ました。また、ATR音声翻訳通信研究所の森元逞室長や飯田仁室長の他、各研究員に多くの協力をいただきました。そして、音声翻訳通信研究所山崎泰弘社長および第一研究室匂坂芳典室長には研究の機会を与えて頂きました。さらに音声翻訳通信研究所の第一研究室の方々には熱心な御討論と有益な御助言をいただきました。また、荒木哲朗氏（当時NTT、現在福井大学）や、杉山雅英氏（当時ATR、現在会津大学）や嵯峨山茂樹氏（当時ATR、現在NTT）には、この研究に際し多くの助言を頂きました。

そして、本論文をまとめるに当たり、種々のご指導、ご教示を頂きました豊橋技術科学大学情報工学系の中川聖一教授に心から感謝致します。同教授には、本研究の遂行にあたっても種々のご相談を頂きました。また、本論文について多くの御意見、御助言を頂きました、金子豊久教授および増山繁助教授に深く感謝いたします。最後に、NTT情報通信研究所の東田正信氏にはこの論文をまとめる時間と機会を頂きました。

これらの皆様に感謝致します。

Jin'ichi Murakami 平成13年1月5日