(3.33)式のは のとき,の値が0.5となるように選択される.つまり,の値は以下の計算で行われる.
(3.34) | |||
(3.35) | |||
(3.36) |
より頻度の低いN-gram,つまり,より情報量の多いN-gramがより重み付けされる.例えば,bi-gramの場合を考えると,評価コーパスにおいて``a''が5回出現し,そのうち4回が``a pen''であり,1回が``a pencil''であったとする.この場合には,1回しか出現しない``a pencil''の情報量が多いと言える.反対に,4回出現する``a pen''のそれぞれ1つずつの持つ情報量は少ない.したがって,この場合では,(3.37)式によって,``a pencil''がより重み付けされる.