next up previous
次へ: 考察 上へ: 自由発話認識 戻る: 単語のtrigramの連鎖確率値の平滑化

自由発話の認識実験結果

表 2 に単語のtrigramの連鎖確率値を平滑化 しない場合の認識実験結果を示す。また、表  3 に単語の trigram の連鎖確率値を deleted-interpolationで平滑化して認識実験を行なった結果を示す。図中、 base-lineは単純に単語のtrigramモデルを用いた実験結果、garbage は単語の trigramモデルとgarbageモデルを組み合わせた実験結果、skip-phoneは単語の trigramモデルと音素trigramモデルを組み合わせた実験結果を示している。ま た、Word CorrectとWord Accuracyは第1位認識候補に対してHTK[18]を 使用して計算した。なお、平滑化の値は、trigram,bigram,unigram,フロアリ ングに対して各々 $ \lambda_3 = 0.35, \lambda_2 = 0.48, \lambda_1 =
0.11, \lambda_0 = 0.06 $ となった。



表 2: 文認識実験結果 (平滑化無し)
\begin{table}\begin{center}
\hspace{3.5cm} 文認識率(\%)\fbox{\epsfile{file=FIGUR...
...84; $\alpha$:16 }\\
{ trigramの連鎖確率を直接使用 }
\par\end{center}\end{table}




表 3: 文認識実験結果 (平滑化有り)
\begin{table}\begin{center}
\hspace{3.5cm} 文認識率(\%)\par\fbox{\epsfile{file=F...
...mの連鎖確率をdeleted-interpolationで平滑化して使用 }
\par\end{center}\end{table}


これらの実験から以下のことがわかる。

  1. 自由発話認識においては、音素スキップを使用した場合も、garbageモデ ルを使用した場合も、単純な単語のtrigramモデルより認識性能は向上する。

  2. garbageモデルを使用したときと音素スキップを利用したときの認 識率を比較すると、音素スキップを利用したときの方が高い認識性能を 得ている。

  3. 単語のtrigramの連鎖確率値を平滑化した場合と平滑化しない場合の認識率を比較する と、自由発話の認識では平滑化をしないほうが高い認識性能を得ている。

  4. 単語のtrigramの連鎖確率値の平滑化を行なわないで、 音素スキップを利用することで、自由発話では47.7%の文認識率が得られた。 また朗読発話でも、この処理を加えることの認識性能の低下は少なかった (89.7% $\rightarrow$ 88.5%)。

自由発話において音素スキップを使用したときの誤認識の例を、表 4に載せる。表中の括弧内は、実際の発話内容であ る。またアンダーラインは誤認識の箇所を示している。


(ビーム幅:16,384; $\alpha $:16)
表 4: 実験において誤りが出力された文(自由発話認識)
正解文 (発声内容)→ 1位出力
会議の宿泊施設についてお尋ねしたいのですが
(会議の宿泊施設についてお尋ねしたいんですけれど)
→ 会議の宿泊施設についてお尋ねしたいんですよ
私共でご紹介できるホテルは京都ホテルと...
(えーと、私共でご紹介できるホテルは京都ホテルと...)
登録をご紹介できるホテルは京都ホテルと...
ではお名前と住所お願いします
(ではお名前と住所お願いします)
→ ではお名前と住所をお願いします
会議の参加料について教えていただきたいのですが
(えー、会議の参加料について教えていただきたいのですけれども)
→ 会議の参加料について教えていただけますか
失礼します
(う、失礼します)
そうします
京都プリンスホテルに8月4日から8日まで一人部屋を...
(えーっと、京都プリンスホテルに8月4日から8日まで...
→ 国際会議が8月に行われているんでしょうか

自由発話では発話内容が朗読発話と異なる。しかし、文認識率の計算において は、朗読発話の単語と一致した場合に正解とした。そのため、発話内容と認識 結果が合っていても誤認識とした。したがって意味的に正しいとみなされる文 を正解に含めた場合、1位文理解率で約 75%、8位までの累積文理解率は90% と理解率は大きく向上する。

これらの実験の結果、音素スキップの方法は、自由発話の認識において有効で あることが示された。



Jin'ichi Murakami 平成13年10月2日