next up previous contents
次へ: まとめ 上へ: 自由発話の音声認識 戻る: 自由発話の文認識実験結果   目次


考察

  1. 自由発話認識におけるtrigramの平滑化に関して

    今回の自由発話の実験では、単語のtrigramの値を平滑化をしない方が、 deleted-interpolationで平滑化をした場合より高い認識性能が得られた。 これは、1つの原因としてテストデータが text-closed data に近い text-open dataであったためと考えられるが、その他にも以下の理由が考 えられる。

    音声認識において利用される言語モデルは、通常エントロピー(もしくは perplxity)が低くかつカバー率が広いことが要求される。一般に単語の trigramはエントロピーは低いがカバー率も低い。そこでカバー率を上げるた めに、deleted-interpolationなどの平滑化の方法が利用されている。しかし 言語モデルのエントロピーは増加する。一方garbage モデルや音素スキップは、 言語モデルで対応出来ない音声を音素で対応するアルゴリズムである。したがっ て、この方法を利用したばあい間接的に言語モデルのエントロピーは増加する。 したがってこれらのアルゴリズムと deleted-interpolationを組合せると、テ ストデータにおけるperplexity は増加する可能性がある。そのため、認識性 能が低下する。

    自由発話では、文字化した文章と発話した音素列の差は朗読発話より大きくな る。例えば「会議にー(い)」と発声している音声を「会議に」と文字化して いる。また、「あのー」「えーと」などの間投詞や言い直しは対話文の50%に 出現する(6.1.4参照)。したがって、自由発話の認識で は、全ての音素を完全に認識する必要はなくて、意味的に合っている文章を出 力すれば十分であると思われる。そして、自由発話の認識において使用される 言語モデルには低いperplexityが求められ)、言語モデルがカバーできない範 囲はgarbage モデルや音素スキップで対処するのが妥当であると考えている。

  2. 音素スキップとgarbage モデルの比較

    今回の実験では、音素スキップの方法がgarbageモデルより高い認識性能が得 られた。これは、言語モデルが適応できない音声区間はgarbageモデルよりも 音素モデルで認識したほうが認識性能は高くなることを意味している。しかし、 この方法はgarbageモデルより一般的に広いビーム幅が必要になると考えてい る。したがって、語彙数が多い場合やビーム幅が小さい場合、garbageモデル のほうが認識性能は高くなる可能性があると思われる。

  3. 間投詞の音素に関して

    間投詞には従来の音素では表現できない音素がある[49]。例えば 「んー」(考え込むとき発声している音)は /N/あるいは/uN/の 両者に解釈 できる。したがって間投詞に関しては認識単位を単語にするべきであると思われる。

  4. 自由発話の認識に関して

    現在自由発話の認識アルゴリズムとしては、garbageモデルなどを使用する方 法の他に、キーワードスポッティングを利用する方法や、始めに音素ラティス を作成し次にキーワードを選択する手法[87][89] などが試み られている。今後自由発話の認識において、これらの方法も考慮する必要があると思われる。



Jin'ichi Murakami 平成13年1月5日