次へ: 実験システムの構成 上へ: -gram を用いた音声認識 戻る: -gram を用いた音声認識目次

trigramの有効性について

日本文音声入力においては、音声の持つ物理的特性に着目した音声認識装置の限界を克服するため、日本語の文法や意味を用いた自然言語処理を併用することの必要性が指摘されている[91]。特に大語彙を対象とする音声には発音の個人差や曖昧さの他に、同音異義語なども多数含まれるため、その認識においては音声の物理的特性が完全に生かされたとしても、なお絞り切れない曖昧さが残り、元の文を推定するには、言語解析や意味理解の技術が必要と考えられる。

音響処理と自然言語処理を融合させた、日本文音声入力の一つの方法として、文節単位の音節マトリックスをインターフェースに用いて、音声認識装置と自然言語処理を連携させる方法[43]が考えられている。すなわち、音声認識装置が音声の物理的特性を解析して、文節単位に各音節候補をマトリックス形式で出力し、自然言語処理はそのマトリックスを入力として、正しい漢字かな混じりの文節候補を推定する方法である。この場合の言語処理の方法としては、二つの方法が考えられる。その一つは、音節マトリックスに言語の文法情報や意味情報を直接適用して、正しい文節を推定しようとするもの [86]であり、もう一つは、音節や文字、単語の統計的な連鎖情報を適用して文節候補を絞り込む方法[72]である。

前者は文法、意味情報を直接適用して文節を生成する点に特徴がある。しかし、単語ごとの文法情報と意味情報の付与ではなく、単語の代わりに単語の文法的カテゴリーや意味的カテゴリーが使用されるため、絞り込みの精度はこれらのカテゴリーの分解能に依存し、複数の単語候補が同一のカテゴリーに属するような大語彙の認識では、文節候補を絞り込むのは困難である[86]。一方、後者の方法で、筆者らは、大語彙の認識において、音節のtrigram モデルが有効で、その適用により、文節単位の音節マトリックスから、第一位で約70%、第10位までの累積正解率で約95%の高い精度が得られることを報告した[3]。しかし、漢字かなの文節候補を生成するにはさらに膨大な曖昧性を絞り込むことが必要であった。ところで、漢字かな混じりの文の誤字、脱字等に漢字かなのマルコフモデル(-gram モデル)が効果的であること [20]が知られている。

そこで本章では、音節マトリックスから文節候補を生成するための方法として、音節のtrigram モデルのほかに漢字かなのtrigram モデルおよび単語辞書を使用した。そして、これらを組み合わせた2種類の曖昧性絞り込みの方法を提案し、その効果を実験的に示した。

Subsections

Jin'ichi Murakami 平成13年1月5日