next up previous contents
次へ: 他の論文におけるアクセント核の位置の持つ情報量の値 上へ: アクセント情報の情報量の値の信頼性 戻る: アクセント情報の情報量の値の信頼性   目次

生成確率によるアクセント句境界の位置の持つ情報量の値

本章では、情報量とはその情報が存在したときに減らせる曖昧さ の値であるとした。しかし、この値は出現率によっても測定が可能 であると思われる。以下に、出現率を使用したアクセント句境界の 位置の持つ情報量の測定方法を示す。

  1. 大量の日本語を用意する。
  2. これを漢字ー音素・アクセント変換して音素情報およびアクセント情報に変換する。
  3. アクセント句境界および音素の出現回数をもとめる
  4. 出現回数からアクセント句境界の情報量を計算する。

日経新聞1982年の 1月 5日の1日分の記事、約10万文字を漢字ー音 素変換してアクセント句境界および音素の出現回数を求めたところ、 それぞれ28677回と130068回出現した。したがってアクセント句境 界の持つ情報量は
$E=-\log_2[(28677/(130068+28677)]=2.47(bit) $
となる。



Jin'ichi Murakami 平成13年1月5日