next up previous contents
次へ: 対話データ 上へ: 文節データについて 戻る: 文節の定義   目次

文法の複雑さ

モデル化されるデータのタスクの複雑度の指標として perplexity(2.1.10節参照)を用いた。perplexityは、 情報理論的な意味での平均分岐数である。例えば、言語$L$の1単語あたりの エントロピーが$H(L)$ならば、次の単語を決定するのに$H(L)$回の二者択一 の選択が必要になる。言い換えれば$2^{H(L)}$個の単語から1単語を選び出す ことになる。モデル化対象の集合を$L$とし、$L$のエントロピーを$H_0(L)$ とする。また、1単語あたりのエントロピー$H(L)$とエントロピーをもとに算 出したパープレキシティ$F_p(L)$は次のように求められる [60]。


$\displaystyle L$ $\textstyle =$ $\displaystyle \{w^i_k \mid w^i_k = w_{i1} w_{i2} \ldots w_{ik}\},
\makebox[2em]{} \ldots \mbox{ 言語$L$の文集合}$ (9.1)
$\displaystyle H_0(L)$ $\textstyle =$ $\displaystyle - \sum_{w^i_k} P(w^i_k) \log_2 P(w^i_k),
\makebox[3.5em]{} \ldots \mbox{ 言語$L$のエントロピー}$ (9.2)
$\displaystyle H(L)$ $\textstyle =$ $\displaystyle - \sum_{w^i_k} \frac{1}{k} P(w^i_k) \log_2 P(w^i_k),
\makebox[2.8em]{} \ldots \mbox{ 言語$L$の1文あたりのエントロピー}$ (9.3)
$\displaystyle F_p(L)$ $\textstyle =$ $\displaystyle 2^{H(L)}.
\makebox[11.5em]{} \ldots \mbox{ 言語$L$のパープレキシティ}$ (9.4)



Jin'ichi Murakami 平成13年1月5日