次へ: 対話データ
上へ: 文節データについて
戻る: 文節の定義
モデル化されるデータのタスクの複雑度の指標として
perplexityを用いる。
perplexityは、情報理論的な意味での平均分岐数である。
例えば、言語の1単語あたりのエントロピーがならば、
次の単語を決定するのに回の選択が必要になる。
言い換えれば個の単語から1単語を選び出すことになる。
モデル化対象の集合をとし、のエントロピーをとする。
また、1単語あたりのエントロピーと
エントロピーをもとに算出したパープレキシティは
次のように求められる
[8]
。
Jin'ichi Murakami
平成13年10月5日