人が発声した自然言語をコンピュータに認識させる文(文節)音声 認識システムでは、認識性能を向上させるために言語情報を使用し ている[1]。この言語モデルとしてbigram・trigramな どのマルコフモデルが有効であることが知られている [2],[3],[4],[5],[6]。 しかし信頼性のあるマルコフ連鎖確率値を得るには大量のテキスト が必要である。したがって学習データ量に対するマルコフ連鎖確率 値の変化について調査する必要がある [7]。
この調査を行なうためには大量のテキストデータが必要である。英 語では、古くからデータベースの必要性が認識されていて、ブラウ ンコーパス[8]やAPコーパスなどが作成されている。し かし日本語では自由に扱える大規模なテキストデータベースは見当 たらない。現在ATRにおいて対話文を中心とするテキストデータ ベースの作成が進められているが[9]、規模はまだ100万 文字程度である。最近、新聞記事がCD-ROMで販売されているため、 漢字仮名文字のデータは多く入手できるが、形態素解析はされてい ない。しかし現在自然言語処理の研究が進んできており、任意の漢 字仮名交じり文に対して、ある程度高い精度で形態素解析ができる ようになってきている[10]。
そこで本論文では、一般的な日本語として新聞記事を選び、学習デー タ量に対する音節および漢字仮名および品詞のunigram・bigram・ trigram・4-gramのマルコフ連鎖確率値の収束性について調べる。 次に、日本語の専門的な文章としてX線CT所見の文章を選び、新聞 記事と同様に音節および漢字仮名および単語のunigram・bigram・ trigram・4-gramのマルコフ連鎖確率の収束性について調査する [11]。
最後にX線CT所見作成の文章の入力を目的とした特定話者の文節音 声認識システムについて報告する。多くの音声認識システムでは認 識単位を音素にしているが、このシステムでは認識単位として単語 を選択した。この場合、調音結合などの問題が軽減されるため文節 認識率は向上するが、HMMのための学習データは大量に必要である と考えられてきた。しかし実験からFuzzy-VQを利用することによっ てHMMの学習データが1つでも高い認識性能が得られることが示さ れた。そして、言語情報として単語のbigramと組み合わせることに より、text-open data の正常所見で86.5%、異常所見で72.1%の 文節認識率が得られた。