next up previous contents
次へ: 実験結果 上へ: 実験結果 戻る: 実験結果   目次

実験条件

アクセント情報の情報量を測定するために、 7.2.2節で示した方法で実験を試みた。実験条件を 次に示す。

  1. 入力データ

    入力文には1982年の日本経済新聞を使用した。また入力単位を文に したとき、音素情報から大量の漢字仮名交じり文が生成されたため、 入力単位を文節にした。実験は50文節おこなった。この入力文節を 表7.1に示す。


    表 7.1: 実験に使用した文節
    \begin{table}\begin{center}
\fbox
{
\par
\begin{minipage}{10cm}
\par
大蔵省は  ...
...適用することで   取引先などの
\par
\end{minipage}\par
}\end{center}\end{table}


  2. 漢字ー音素・アクセント変換

    実験に用いた漢字仮名交じり文から音素情報およびアクセント情報 に変換する漢字ー音素・アクセント変換の変換精度は、音節正解率 で99.8%、アクセント情報の正解率で 95%である [47]。このシステムではアクセント句境界の位置の他 に、3種類の境界の長さが出力されるが、今回の実験では1種類にま とめた。またアクセント核も、第1アクセント核と第2アクセント核 が出力されるが、同様に第1アクセント核だけを利用した。したがっ て、実験ではアクセント句境界の位置の情報と第1アクセント核の 位置の情報量が測定される。

  3. 音素ー漢字変換

    音素情報から漢字仮名交じり文を生成する音素ー漢字変換に、文節数 最小法を使用した。ただし変換精度を上げるため分割数を最小分割数 +1まで分割した[59]。ただし生成された漢字仮名まじり文に 対する単語接続情報、頻度情報などの言語情報による選択はしなかっ た。したがって音素情報から連想される、すべて漢字仮名交じり文が 出力される。ただし分割の違いから生成される、同じ表記の重複する 漢字仮名交じり文は、1つの候補とした。例えば ``大蔵省''は固有名 詞の ``大蔵省''と一般名詞の ``大蔵''と ``省''の2種類が出力さ れる。このように重複する漢字仮名交じり文は ``大蔵省''の1つと数 えた。音素ー漢字変換において使用した単語辞書は、約16万語である。

  4. 情報量の計算

    情報量の計算は以下の3種類について行った。

    1. アクセント句境界の位置の持つ情報量

      計算式は$P_1$を(音素情報およびアクセント句 境界の一致する漢字仮名交じり文の数/音素情報の一致する漢字仮 名交じり文の数)として、アクセント句境界が持つ情報量$E_1$$-\log_2(P_1)$とする。

    2. アクセント核の位置の持つ情報量

      計算式は$P_2$を(音素情報およびアクセント句 境界およびアクセント核の一致する漢字仮名交じり文の数/音素情 報およびアクセント句境界の一致する漢字仮名交じり文の数)とし て、アクセント核の持つ情報量$E_2$$-\log_2(P_2)$とする。

    3. アクセント情報の持つ情報量

      計算式は$P_3$を(音素情報およびアクセント句 境界およびアクセント核の一致する漢字仮名交じり文の数/音素情 報の一致する漢字仮名交じり文の数)として、アクセント情報が持 つ情報量$E_3$$-\log_2(P_3)$とする。



Jin'ichi Murakami 平成13年1月5日