実験条件

アクセント情報の情報量を測定するために、 7.2.2節で示した方法で実験を試みた。実験条件を次に示す。

入力データ

入力文には1982年の日本経済新聞を使用した。また入力単位を文にしたとき、音素情報から大量の漢字仮名交じり文が生成されたため、入力単位を文節にした。実験は50文節おこなった。この入力文節を表7.1に示す。

**表 7.1:** 実験に使用した文節
$\begin{table}\begin{center} \fbox { \par \begin{minipage}{10cm} \par 大蔵省は ... ...適用することで取引先などの \par \end{minipage}\par }\end{center}\end{table}$

漢字ー音素・アクセント変換

実験に用いた漢字仮名交じり文から音素情報およびアクセント情報に変換する漢字ー音素・アクセント変換の変換精度は、音節正解率で99.8%、アクセント情報の正解率で 95%である [47]。このシステムではアクセント句境界の位置の他に、3種類の境界の長さが出力されるが、今回の実験では1種類にまとめた。またアクセント核も、第1アクセント核と第2アクセント核が出力されるが、同様に第1アクセント核だけを利用した。したがって、実験ではアクセント句境界の位置の情報と第1アクセント核の位置の情報量が測定される。

音素ー漢字変換

音素情報から漢字仮名交じり文を生成する音素ー漢字変換に、文節数最小法を使用した。ただし変換精度を上げるため分割数を最小分割数 +1まで分割した[59]。ただし生成された漢字仮名まじり文に対する単語接続情報、頻度情報などの言語情報による選択はしなかった。したがって音素情報から連想される、すべて漢字仮名交じり文が出力される。ただし分割の違いから生成される、同じ表記の重複する漢字仮名交じり文は、1つの候補とした。例えば ``大蔵省''は固有名詞の ``大蔵省''と一般名詞の ``大蔵''と ``省''の２種類が出力される。このように重複する漢字仮名交じり文は ``大蔵省''の1つと数えた。音素ー漢字変換において使用した単語辞書は、約16万語である。

情報量の計算

情報量の計算は以下の３種類について行った。

アクセント句境界の位置の持つ情報量
計算式はを（音素情報およびアクセント句境界の一致する漢字仮名交じり文の数／音素情報の一致する漢字仮名交じり文の数）として、アクセント句境界が持つ情報量を $-\log_2(P_1)$ とする。
アクセント核の位置の持つ情報量
計算式はを（音素情報およびアクセント句境界およびアクセント核の一致する漢字仮名交じり文の数／音素情報およびアクセント句境界の一致する漢字仮名交じり文の数）として、アクセント核の持つ情報量を $-\log_2(P_2)$ とする。
アクセント情報の持つ情報量
計算式はを（音素情報およびアクセント句境界およびアクセント核の一致する漢字仮名交じり文の数／音素情報の一致する漢字仮名交じり文の数）として、アクセント情報が持つ情報量を $-\log_2(P_3)$ とする。

Jin'ichi Murakami 平成13年1月5日