次へ: デコーダー
上へ: 言語モデル
戻る: N-gramモデル
目次
-gramモデルにおいて,信頼できる値を算出するためには大規模コーパスを使用しなければいけない.しかし,実際は多くの単語列の出現率は0となるため,信頼できる値を推定できない場合が多い.そこで,それを解決するためのスムージングの手法が提案されている.スムージングとは,生起確率が0となるのを防ぐために,大きい確率値を小さくし,小さい確立値を大きくする手法である.代表的な手法としてバックオフスムージング(back-off smooting)があり,バックオフスムージングでは学習データに出現しない
-gramの値を(
-1)-gramの値から推定を行う.3-gramの場合の例を以下の式に示す.
![$\displaystyle P(w_{i}\vert w_{i-1}^{i-2}) =\left\{ \begin{array}{ll}
\lambda(w_...
... \ N(w_{n-2}^{n-1}) \\
P(w_{i}\vert w_{i-1}) & other \\
\end{array} \right.$](img108.png) |
|
|
(2.24) |
はディスカウントと呼ばれる係数で,出現しない
-gramに対して確率を付与するために,(
-1)-gramから確率を推定する.また,
は確率の和を1にするための正規化係数である.``-ndiscount''や ``-kndiscount''や``-ukndiscount''などの,ディスカウント係数を求める方法が多数存在する.
s102025
平成27年3月9日