next up previous contents
次へ: 連続音声認識システムに使用するアルゴリズム 上へ: 序論 戻る: 本研究の目的   目次

論文の構成

本論文では、確率的言語モデルとして$N$-gramモデルとErgodic HMMを基本 モデルとして用いている。図 1.1に、章構成を図示した。

図 1.1: 章構成
\begin{figure}\begin{center}
\fbox{\epsfile{file=FIGURE/introduction.ps,width=120mm}}\end{center}\end{figure}

章は次のように構成される。

  1. 序論

    1章では、この論文の背景や目的について述べた。

  2. 連続音声認識システムに使用するアルゴリズム

    2章では第3章移 行の研究内容の理解を用意にするために音声認識の基本について述べた。 2.1節ではHMMにおけるBaum-Welchアルゴリズムについて述べた。 2.2節では連続音声認識のアルゴリズムについて 述べた。そして2.3節では計算量およ びメモリ量を削減方法に ついて述べた。

  3. 日本語の$N$-gramによるモデル化

    一般的に$N$-gramの確率値の信頼性は学習データが増加するにつれて向上す ると考えられる。しかし、$N$-gramの確率値を計算するときに必要なデータ 量に関する基礎的な報告は少ない。そこで第3章で は、学習データの増加に伴うモデルのエントロピーの変化と新たな$N$-gram の組合せの出現頻度を研究した。

  4. $N$-gram を用いた音声認識

    4章では音声認識のための言語モデルとしての$N$-gram の有効性について述べた。始めに日本語として比較的入手しやすい新聞記事 を選び、仮名および漢字および品詞の$N$-gramの有効性をシュミレーション で示した。また、実際に医療用文章の入力支援において、単語のbigramの有 効性を認識実験を通して示した。最後に、国際会議の申し込みの文章におい て単語のtrigramの有効性を示した。

  5. 自由発話の音声認識

    5章では自由発話認識のため のアルゴリズムとその実験結果について述べた。自由発話を認識するにあたっ て、特に問題になるのは、冗長語(間投詞)や言い淀み、言い直しである。 これらの言語現象は、文の全ての場所に出現する可能性がある。一方連続音 声認識アルゴリズムは、各時刻・各状態において最尤の単語系列を知るよう にアルゴリズムを変更することができる。この特徴を生かして、自由発話に おいて特徴的な間投詞や言い直しを、音響モデルでは音素系列として認識し ながら言語モデルではこれらの単語をスキップすることにより、自由発話の 音声が認識できるようになる。このアルゴリズムで自由発話音声認識の実験 を行なった。この結果について述べた。

  6. 自由発話音声における音響的・言語的な特徴

    6章では自由発話の音響的、言語的特徴について述 べた。人間同士のコミュニケーションでは、「あのー」、「えーと」などに 代表される間投詞や、言い淀みや言い誤りおよび言い直しなどが頻繁に出現 する。このような、いわゆる自由発話の音声認識が今後の重要な研究課題に なると思われる。しかし、自由発話の認識を行なうために、従来から行なわ れている朗読発話との違いを検討する必要がある。そこで、本章では朗読発 話と自由発話の差を研究した。音声には音響的な面と言語的な面がある。そ こで音響的な面から、融合ラベルの付与率とHMMによる音素認識率などを調 査した。次に言語的な面から、従来の朗読発声では出現しない冗長語と言い 直しの出現頻度などを調べた。

  7. 音声におけるアクセント情報の持つ情報量の考察

    自由発話音声認識のための基礎的な研究として、韻律情報の持つ情報量につ いて研究した。第7章では、この結果について 述べた。

    音声信号には音節の情報の他に様々な韻律情報を持っている。現在、韻律の 認識が不安定なため、音声認識にあまり利用されていないが、将来的な自由 発話の認識において有効なパラメータであると思われる。したがって、韻律 の持つ情報量は、認識性能の向上を示す指標になるため興味深いものがある。 たが、これらの情報の情報量を測定することは、かなり困難である。そこで、 本論文は、韻律の情報の中でも比較的把握しやすいポーズおよびアクセント 位置に着目し、この情報量を漢字仮名変換および仮名漢字変換を使用して測 定する方法を提案した。そして実験によりポーズおよびアクセント位置の持 つ情報量を定量的に測定した。

  8. Ergodic HMMを用いた未知・複数信号源クラスタリング問題の検討

    自由発話音声認識のための別の基礎的な研究として、複数話者発話の識別問 題を検討した。具体的な例としては、テープレコーダに収録された議事録を、 話者ごとに発話内容を分類することに相当する。この問題は、未知・複数信 号源クラスタリング問題という形で一般論化できる。第 8章では、この結果について 述べた。

    異なる $N$ 個の信号源より生成された信号系列が、どの信号源から生成さ れたのかを分割・識別する問題を、未知・複数信号源クラスタリング問題と する。この問題は、音声処理分野に限らず言語処理などの分野でも重要なテー マである。本章では、未知・複数信号源クラスタリング問題の応用として複 数話者発話の識別問題を検討した。一方、Ergodic HMMを複数話者発話の識 別問題に利用した時、カテゴリーが話者に相当し、信号系列は状態から出力 されるシンボル系列と考えることができる。したがって音声データから Baum-Welch アルゴリズムを用いてパラメータの再推定を行ないViterbiサー チをすることにより、各話者の発話区間を求めることができる。この実験結 果について報告した。

  9. Ergodic HMM を用いた確率付きネットワーク文法の自動獲得の研究

    この論文では、確率的言語モデルとして言語の$N$-gram モデル以外に 確率つきネットワーク文法についても研究した。この結果を 第9章で述べた。

    確率付き言語モデルとしては、$N$-gramの他に確率付きネットワーク文法 がある。この確率付きネットワーク文法は言語モデルを状態遷移確率と単 語(もしくは品詞)出力確率で記述している。一方、離散型Ergodic HMMは パラメータとして状態遷移確率、シンボル出力確率、初期状態確率を持つ。 したがってErgodic HMMの出力シンボルを単語もしくは品詞とすれば、両者 は等価となる。またBaum-Welch アルゴリズムを利用することにより、学 習データの尤度が最大になるように各パラメータを計算できる。そこで、 Ergodic HMMを想定し、単語列(もしくは品詞列)を入力データとし Baum-Welch アルゴリズムを用いることにより、確率つきネットワーク文法を自動的に 獲得できる可能性がある。

    ここでは、始めに、品詞を入力としてErgodicHMMをBaum-Welchアルゴリズ ムを用いて学習した。そして、学習後のHMMを解析し、その形態と従来の 言語学で使用されているネットワーク文法との類似性を研究した。次に単 語列をErgodic HMMに学習させ、学習後のパラメータを検討してErgodic HMMが文法を学習しているかどうか検討した。また、得られたErgodic HMM を連続音声認識のための言語モデルとして使用して有効性を確かめた。ま た、Ergodic HMMの状態数を増加させたときのBaum-Welch アルゴリ ズムの改良方法について述べた。そして状態数を増加させたときの認識性能を単語 のbigramやtrigramと比較した。

  10. 結論

    10 章では本論文のまとめと今後の課題について述べた。



Jin'ichi Murakami 平成13年1月5日