次へ: 学習データ量とマルコフ連鎖確率値の収束性について 上へ: main1 戻る: main1

まえがき

人が発声した自然言語をコンピュータに認識させる文（文節）音声認識システムでは、認識性能を向上させるために言語情報を使用している[1]。この言語モデルとしてbigram・trigramなどのマルコフモデルが有効であることが知られている [2],[3],[4],[5],[6]。しかし信頼性のあるマルコフ連鎖確率値を得るには大量のテキストが必要である。したがって学習データ量に対するマルコフ連鎖確率値の変化について調査する必要がある [7]。

この調査を行なうためには大量のテキストデータが必要である。英語では、古くからデータベースの必要性が認識されていて、ブラウンコーパス[8]やAPコーパスなどが作成されている。しかし日本語では自由に扱える大規模なテキストデータベースは見当たらない。現在ＡＴＲにおいて対話文を中心とするテキストデータベースの作成が進められているが[9]、規模はまだ100万文字程度である。最近、新聞記事がCD-ROMで販売されているため、漢字仮名文字のデータは多く入手できるが、形態素解析はされていない。しかし現在自然言語処理の研究が進んできており、任意の漢字仮名交じり文に対して、ある程度高い精度で形態素解析ができるようになってきている[10]。

そこで本論文では、一般的な日本語として新聞記事を選び、学習データ量に対する音節および漢字仮名および品詞のunigram・bigram・ trigram・4-gramのマルコフ連鎖確率値の収束性について調べる。次に、日本語の専門的な文章としてX線CT所見の文章を選び、新聞記事と同様に音節および漢字仮名および単語のunigram・bigram・ trigram・4-gramのマルコフ連鎖確率の収束性について調査する [11]。

最後にX線CT所見作成の文章の入力を目的とした特定話者の文節音声認識システムについて報告する。多くの音声認識システムでは認識単位を音素にしているが、このシステムでは認識単位として単語を選択した。この場合、調音結合などの問題が軽減されるため文節認識率は向上するが、HMMのための学習データは大量に必要であると考えられてきた。しかし実験からFuzzy-VQを利用することによってHMMの学習データが１つでも高い認識性能が得られることが示された。そして、言語情報として単語のbigramと組み合わせることにより、text-open data の正常所見で86.5%、異常所見で72.1%の文節認識率が得られた。

Jin'ichi Murakami 平成13年10月5日