ここで提案したアルゴリズムはHP735、語彙数1567、ビーム幅4096において、 メモリ量 15Mbyte 平均文認識時間 平均1分30秒(リアルタイムの約50倍) で動作 した。実験結果は文認識率と単語正解率(word correct)と単語認識精度(word accuracy)[15]で評価した。 なお、単語正解率は以下の式で計算される
(4.1) | |||
(4.2) |
ただし
... | 正解の単語数 | |
... | 脱落誤りした単語数 | |
... | 置換誤りをした単語数 | |
... | 挿入誤りをした単語数 |
また比較のために単語のbigramを使用したときの実験も行なった。実験結果を表 4.6 に示す。 実験の結果、特定話者認識において trigramを用いたとき、文認識率で66.7%、 8位までの累積認識率で 75.1%が得られた。しかし、不特定話者認識では、テ ストデータ全てにおいて、データの先頭のポーズ区間に1音節の単語が挿入さ れたため、文認識率は0.0%になった。(例えば「はい」を「と、はい」と認 識。)したがって、認識精度が正解率と比較して大きく低下している (31.1% 74.2% )。
言語model | bigram | trigram | |||
特定話者 | 不特定話者 | 特定話者 | 不特定話者 | ||
累積文認識率 | 42.5% | 0.0% | 66.7% | 0.0% | |
47.9% | 0.0% | 74.2% | 0.0% | ||
51.3% | 0.0% | 75.1% | 0.0% | ||
word correct | 80.7% | 55.8% | 88.8% | 74.2% | |
word accuracy | 63.0% | 1.2% | 81.1% | 31.1% |
表4.7に、特定話者で単語trigramを使用したときの誤 認識の例を示す。例文においてアンダーラインは誤認識を示す。誤認識された 文の中には、意味的には正しい文が多い。意味的に正しい文を正解に含めた時、 1位文理解率は約80%であった。
正解文 → 1位出力 |
京都プリンスホテルが会議場には近いのですが |
→ 京都プリンスホテルが会議場には近いんですが |
ホテルの手配もしていただけるのですか |
→ ホテルの手配もしていただけるんですか |
どのようなご用件でしょうか |
→ どのような用件でしょうか |
ご住所とお名前をお願いします |
→ ご住所とお名前お願いします |
住所は東京都港区新橋1丁目1番3号です |
→ 住所は東京都になったのを送っしかし去年一番可能です |
電話番号は331の2521です |
→ 論文を発表331の22日です |