next up previous contents
次へ: 考察 上へ: 自由発話の音声認識 戻る: 単語のtrigramの平滑化   目次


自由発話の文認識実験結果

表 5.2 に単語のtrigramの連鎖確率値を平滑化 しないで認識実験を行なった結果を示す。また、表  5.3 に単語の trigram の連鎖確率値を deleted-interpolationで平滑化して認識実験を行なった結果を示す。なお、 平滑化の値は、trigram,bigram,unigram,フロアリングに対して各々 $ \lambda_3 = 0.35, \lambda_2 = 0.48, \lambda_1 = 0.11, \lambda_0 = 0.06 $ となった。


文認識率(%)

表 5.2: 自由発話の文認識実験結果 (平滑化無し)
    base line garbage skip-phone
累積文認識率 $1$ 89.7% 83.2% 88.5%
$\sim2$ 97.3% 90.5% 96.2%
$\sim8$ 100.0% 97.3% 99.2%
Word correct 97.5% 93.4% 96.4%
  Word accuracy 96.9% 93.2% 96.0%
疑  累積文認識率 $1$ 41.6% 64.5% 73.3%
似自 $\sim2$ 43.1% 70.2% 79.0%
 由 $\sim8$ 44.3% 78.2% 82.8%
 発 Word correct 70.6% 81.5% 89.5%
 話 Word accuracy 34.2% 76.6% 82.3%
累積文認識率 $1$ 10.7% 37.8% 47.7%
$\sim2$ 15.3% 46.9% 57.2%
$\sim8$ 19.5% 56.1% 66.8%
Word correct 44.7% 65.7% 80.9%
  Word accuracy 9.1% 58.9% 73.3%

不特定話者認識; 語彙数:435; ビーム幅:16,384; $\alpha $:16
trigramの連鎖確率を直接使用



文認識率(%)

表 5.3: 自由発話の文認識実験結果 (平滑化有り)
    base line garbage skip-phone
累積文認識率 $1$ 47.3% 49.2% 46.9%
$\sim2$ 52.2% 53.8% 53.4%
$\sim8$ 61.5% 61.8% 64.1%
Word correct 77.4% 70.1% 77.1%
  Word accuracy 71.9% 68.0% 72.2%
疑  累積文認識率 $1$ 29.0% 36.3% 28.6%
似自 $\sim2$ 30.1% 37.8% 30.9%
 由 $\sim8$ 33.2% 42.0% 36.3%
 発 Word correct 63.1% 59.6% 63.2%
 話 Word accuracy 28.8% 44.3% 29.9%
累積文認識率 $1$ 10.3% 16.4% 10.7%
$\sim2$ 14.1% 18.3% 13.0%
$\sim8$ 17.5% 22.1% 16.8%
Word correct 51.0% 41.5% 46.7%
  Word accuracy 27.9% 26.5% 19.2%

trigram; 不特定話者認識; 語彙数:435; ビーム幅:16,384; $\alpha $:16
trigramの連鎖確率をdeleted-interpolationして使用


これらの実験から以下のことがわかる。

  1. 自由発話において、音素スキップの方法を使用した場合も、garbageモデ ルを使用した場合も、認識性能は向上する。

  2. garbageモデルを使用したときと音素スキップの方法を利用したときの認 識率を比較すると、音素スキップの方法を利用したときの方が高い認識性能を 得ている。

  3. trigramの値を平滑化した場合と平滑化しない場合の認識率を比較する と、平滑化をしないほうが高い認識性能を得ている。これに関しては5.4節において考察する。

  4. trigramの連鎖確率値を平滑化をしないで、音素スキップの方法 を利用することで、自由発話では47.7%の文認識率が得られた。また朗読発話 でも、この処理を加えることの認識性能の低下は少なかった(89.7% $\rightarrow $ 88.5%)。

自由発話において音素スキップをしたときの誤認識の例を、表 5.4に載せる。表中の括弧内は、実際の発話内容であ る。


(ビーム幅:16,384; $\alpha $:16)

表 5.4: 実験において誤りが出力された文(自由発話認識)
正解文 (発声内容)→ 1位出力
会議の宿泊施設についてお尋ねしたいのですが
(会議の宿泊施設についてお尋ねしたいんですけれど)
→ 会議の宿泊施設についてお尋ねしたいんですよ
私共でご紹介できるホテルは京都ホテルと京都プリンスホテルです
(えーと、私共でご紹介できるホテルは京都ホテルと京都プリンスホテルです)
登録をご紹介できるホテルは京都ホテルと京都プリンスホテルです
ではお名前と住所お願いします
(ではお名前と住所お願いします)
→ ではお名前と住所をお願いします
会議の参加料について教えていただきたいのですが
(えー、会議の参加料について教えていただきたいのですけれども)
→ 会議の参加料について教えていただけますか
失礼します
(う、失礼します)
そうします
京都プリンスホテルに8月4日から8日まで一人部屋をお取りしました
(えーっと、京都プリンスホテルに8月4日から8日まで
えーっと一人部屋をお取りしました )
→ 国際会議が8月に行われているんでしょうか

自由発話では発話内容が朗読発話と異なっている。しかし、文認識率の計算に おいては、朗読発話の単語と一致した場合に正解とした。そのため、発話内容 と認識結果が合っていても、誤認識とした。(つまり ''おたずねしたいんで すが” が認識されたとしても、朗読発話の文が``おたずねしたいのですが''で あった場合、誤認識とした。)したがって実際の認識性能は47.7%より高い。 意味的に正しい文を正解とすると、1位文理解率で約 75%、8位までの累積文 理解率は90%になった。したがって、音素スキップの方法は、自由発話の認識 において有効であると考えられる。


next up previous contents
次へ: 考察 上へ: 自由発話の音声認識 戻る: 単語のtrigramの平滑化   目次
Jin'ichi Murakami 平成13年1月5日