次へ: 対話データ
上へ: 文節データについて
戻る: 文節の定義
モデル化されるデータのタスクの複雑度の指標として
perplexityを用いる。
perplexityは、情報理論的な意味での平均分岐数である。
例えば、言語
の1単語あたりのエントロピーが
ならば、
次の単語を決定するのに
回の選択が必要になる。
言い換えれば
個の単語から1単語を選び出すことになる。
モデル化対象の集合を
とし、
のエントロピーを
とする。
また、1単語あたりのエントロピー
と
エントロピーをもとに算出したパープレキシティ
は
次のように求められる
[8]
。
Jin'ichi Murakami
平成13年10月5日