next up previous contents
次へ: ポーズの処理 上へ: 単語のtrigramモデルを用いた文音声認識実験 戻る: 実験条件   目次


実験結果

ここで提案したアルゴリズムはHP735、語彙数1567、ビーム幅4096において、 メモリ量 15Mbyte 平均文認識時間 平均1分30秒(リアルタイムの約50倍) で動作 した。実験結果は文認識率と単語正解率(word correct)と単語認識精度(word accuracy)[15]で評価した。 なお、単語正解率は以下の式で計算される


$\displaystyle word   correct$ $\textstyle =$ $\displaystyle H / ( H + D + S ) \times 100\%$ (4.1)
$\displaystyle word   accuracy$ $\textstyle =$ $\displaystyle ( H - I ) / ( H + D + S ) \times 100\%$ (4.2)

ただし

$H$ ... 正解の単語数
$D$ ... 脱落誤りした単語数
$S$ ... 置換誤りをした単語数
$I$ ... 挿入誤りをした単語数

また比較のために単語のbigramを使用したときの実験も行なった。実験結果を表 4.6 に示す。 実験の結果、特定話者認識において trigramを用いたとき、文認識率で66.7%、 8位までの累積認識率で 75.1%が得られた。しかし、不特定話者認識では、テ ストデータ全てにおいて、データの先頭のポーズ区間に1音節の単語が挿入さ れたため、文認識率は0.0%になった。(例えば「はい」を「と、はい」と認 識。)したがって、認識精度が正解率と比較して大きく低下している (31.1% $\leftarrow$ 74.2% )。


表 4.6: 認識実験の結果 文認識率(%)
言語model   bigram trigram
    特定話者 不特定話者 特定話者 不特定話者
累積文認識率 $1$ 42.5% 0.0% 66.7% 0.0%
  $\sim2$ 47.9% 0.0% 74.2% 0.0%
  $\sim8$ 51.3% 0.0% 75.1% 0.0%
word correct   80.7% 55.8% 88.8% 74.2%
word accuracy   63.0% 1.2% 81.1% 31.1%

text-closed; ビーム幅:4,096; $\alpha $:1


4.7に、特定話者で単語trigramを使用したときの誤 認識の例を示す。例文においてアンダーラインは誤認識を示す。誤認識された 文の中には、意味的には正しい文が多い。意味的に正しい文を正解に含めた時、 1位文理解率は約80%であった。


text-closed; ビーム幅:4,096; $\alpha $:1

表 4.7: 実験において誤りが出力された文の例
正解文 → 1位出力
京都プリンスホテルが会議場には近いのですが
→ 京都プリンスホテルが会議場には近いですが
ホテルの手配もしていただけるのですか
→ ホテルの手配もしていただけるですか
どのようなご用件でしょうか
→ どのような用件でしょうか
ご住所とお名前をお願いします
→ ご住所とお名前お願いします
住所は東京都港区新橋1丁目1番3号です
→ 住所は東京都になったのを送っしかし去年一番可能です
電話番号は331の2521です
論文を発表331の22日です


next up previous contents
次へ: ポーズの処理 上へ: 単語のtrigramモデルを用いた文音声認識実験 戻る: 実験条件   目次
Jin'ichi Murakami 平成13年1月5日