実験条件を以下に示す。
マルコフ連鎖値の計算には日経新聞記事74日分(82年1月4日から3月 31日)を使用した。これを日本文解析プログラムを使用して形態素に分割し、 同時に音節変換を行った。そして、これを再合成して文節単位のデータを作成 し、その後、音節、漢字かな、品詞についてunigram,bigram,trigramのマルコフ連鎖 値を計算した。
ただし実験を簡単にするため、この記事から、記号、外国語読み、数詞の文 字のある文は文全体を削除した。その結果、マルコフ連鎖値の計算に使用した 文字数は漢字かな混じり文字で数えて約170万文字である。 (3.1節におけるデータと同一)。
なお、新聞記事は、マルコフモデルに必要な、すべての組み合わせを持って いない。そのため、連鎖値が0.0となる組合せが出現する。そのような組み合わ せに対しては、統計上の最小値を与える方法や次数の少ない連鎖値との補間で 代用する方法[27]などが考えられるが、ここではフロアリングをして、その確率値を exp(-1000.0)とした。
文節処理の入力となる音節マトリックスは、従来の音声認識装置[13]の認識 率情報(コンフュージョン・マトリックス)に基づき、以下の条件でコンピュータ・ シミュレーションにより生成した。実用的な観念からは、非現実的な仮定になってい るが、言語情報の有効性を検証するには十分である。
また、実験には以下の2種類の音節マトリックスを用意した。
マルコフ連鎖値の計算に使用した日本文以外の漢字かな混じり文から生成し た文節単位の音節マトリックス。(日経新聞82年1月1日の記事文から抽出)
マルコフ連鎖値の計算に使用した日本文の漢字かな混じり文から生成した 文節単位の音節マトリックス。(日経新聞82年1月5日の記事文から抽出)
単語辞書は一般語、使用頻度の高い人名地名などの固有名詞を含む16万語 の日本文音声変換用の辞書を使用した。ただし、使用した情報は音節、漢字か な、品詞の三種類である。