next up previous
次へ: 実験で求めた情報量の値の信頼性 上へ: アクセント情報の情報量の値の信頼性 戻る: 実験方法の問題点

生成確率によるアクセント句境界の位置の持つ情報量の値

ところで、情報量とは、その情報が存在したときにどれだれの曖昧 さを減少できるかをしめす値であると考えられる。しかし、この値 は生成確率によっても測定可能である。以下に、生成確率を使用し たアクセント句境界の位置の持つ情報量の測定方法を示す。

  1. 大量の日本語を用意する。
  2. これを漢字韻律変換して音韻情報およびアクセント情報に変換する。
  3. アクセント句境界および音韻の出現回数をもとめる
  4. 出現回数からアクセント句境界の情報量を計算する。

日経新聞1982年の 1月 5日の1日分の記事、約10万文字を漢字音 韻変換してアクセント句境界および音韻の出現回数を求めたところ、 それぞれ28677回と130068回出現した。したがってアクセント句境 界の持つ情報量は
$E=-\log_2[(28677/(130068+28677)]=2.47(bit) $
となった。



Jin'ichi Murakami 平成13年10月5日