日本文音声入力においては、音声の持つ物理的特性に着目した音声認識装置の 限界を克服するため、日本語の文法や意味を用いた自然言語処理を併用するこ との必要性が指摘されている[91]。特に大語彙を対象とする音 声には発音の個人差や曖昧さの他に、同音異義語なども多数含まれるため、そ の認識においては音声の物理的特性が完全に生かされたとしても、なお絞り切 れない曖昧さが残り、元の文を推定するには、言語解析や意味理解の技術が必 要と考えられる。
音響処理と自然言語処理を融合させた、日本文音声入力の一つの方法として、 文節単位の音節マトリックスをインターフェースに用いて、音声認識装置と自 然言語処理を連携させる方法[43]が考えられている。すなわち、 音声認識装置が音声の物理的特性を解析して、文節単位に各音節候補をマトリッ クス形式で出力し、自然言語処理はそのマトリックスを入力として、正しい漢 字かな混じりの文節候補を推定する方法である。 この場合の言語処理の方法 としては、二つの方法が考えられる。その一つは、音節マトリックスに言語の 文法情報や意味情報を直接適用して、正しい文節を推定しようとするもの [86]であり、もう一つは、音節や文字、単語の統計的な連鎖情報を 適用して文節候補を絞り込む方法[72]である。
前者は文法、意味情報を直接適用して文節を生成する点に特徴がある。しかし、 単語ごとの文法情報と意味情報の付与ではなく、単語の代わりに単語の文法的 カテゴリーや意味的カテゴリーが使用されるため、絞り込みの精度はこれらの カテゴリーの分解能に依存し、複数の単語候補が同一のカテゴリーに属するよ うな大語彙の認識では、文節候補を絞り込むのは困難である[86]。 一方、後者の方法で、筆者らは、大語彙の認識において、音節のtrigram モデルが 有効で、その適用により、文節単位の音節マトリックスから、第一位で約70%、 第10位までの累積正解率で約95%の高い精度が得られることを報告した[3]。 しかし、漢字かなの文節候補を生成するにはさらに膨大な曖 昧性を絞り込むことが必要であった。ところで、漢字かな混じりの文の誤 字、脱字等に漢字かなのマルコフモデル(-gram モデル)が効果的であること [20]が知られている。
そこで本章では、音節マトリックスから文節候補を生成するための方法として、 音節のtrigram モデルのほかに漢字かなのtrigram モデルおよび単語 辞書を使用した。そして、これらを組み合わせた2種類の曖昧性絞り込みの方 法を提案し、その効果を実験的に示した。