next up previous contents
次へ: 実験結果 上へ: trigramの有効性について 戻る: 両アルゴリズムの違いについて   目次

実験条件

実験条件を以下に示す。

  1. マルコフ連鎖値の計算

    マルコフ連鎖値の計算には日経新聞記事74日分(82年1月4日から3月 31日)を使用した。これを日本文解析プログラムを使用して形態素に分割し、 同時に音節変換を行った。そして、これを再合成して文節単位のデータを作成 し、その後、音節、漢字かな、品詞についてunigram,bigram,trigramのマルコフ連鎖 値を計算した。

    ただし実験を簡単にするため、この記事から、記号、外国語読み、数詞の文 字のある文は文全体を削除した。その結果、マルコフ連鎖値の計算に使用した 文字数は漢字かな混じり文字で数えて約170万文字である。 (3.1節におけるデータと同一)。

    なお、新聞記事は、マルコフモデルに必要な、すべての組み合わせを持って いない。そのため、連鎖値が0.0となる組合せが出現する。そのような組み合わ せに対しては、統計上の最小値を与える方法や次数の少ない連鎖値との補間で 代用する方法[27]などが考えられるが、ここではフロアリングをして、その確率値を exp(-1000.0)とした。

  2. 音節マトリックス

    文節処理の入力となる音節マトリックスは、従来の音声認識装置[13]の認識 率情報(コンフュージョン・マトリックス)に基づき、以下の条件でコンピュータ・ シミュレーションにより生成した。実用的な観念からは、非現実的な仮定になってい るが、言語情報の有効性を検証するには十分である。

    1. セグメンテーション誤りはないものと仮定する(音節単位発声を仮定)。

    2. 音節候補の数は最大8個とし、8位までの候補の中に必ず正しい音 節候補があるものとする。なお、平均の候補数は4個である。

    3. 音節の認識距離情報は使用しない。すなわち、音節マトリックスに おける候補順位は無視し、全て同一の重みと仮定する。

    4. 音節に長音「ー」、鼻音「カ゜」行、促音「ッ」の存在を仮定する。 これは音声出力用の形式で登録されて単語辞書とのインターフェースを合 わせるためである。なお、これらの音節の1位正解率は100%としている。

    また、実験には以下の2種類の音節マトリックスを用意した。

    1. text-open data

      マルコフ連鎖値の計算に使用した日本文以外の漢字かな混じり文から生成し た文節単位の音節マトリックス。(日経新聞82年1月1日の記事文から抽出)

    2. text-closed data

      マルコフ連鎖値の計算に使用した日本文の漢字かな混じり文から生成した 文節単位の音節マトリックス。(日経新聞82年1月5日の記事文から抽出)

  3. 単語辞書

    単語辞書は一般語、使用頻度の高い人名地名などの固有名詞を含む16万語 の日本文音声変換用の辞書を使用した。ただし、使用した情報は音節、漢字か な、品詞の三種類である。



Jin'ichi Murakami 平成13年1月5日