tri-gramの単語列 | ||
(スムージングなし) | (バックオフスムージング) | |
痛み が 伴う | -1.382585 | -0.3105274 |
堤防 が 決壊 | -1.061585 | -0.1920604 |
天気 が よかっ | -1.768149 | -0.1920604 |
納得 が いか | -0.6635545 | -0.1101559 |
梅雨 が 明け | -0.7214168 | -0.1029072 |
風 が 吹く | -2.222238 | -0.1920604 |
表の1行目の例では,左側の数値が,"痛み" と "が" という文字列が連続した後に,"伴う" が出現する確率を常用対数で表した値 "
" を, 中央がtri-gramで表された単語列である "痛み が 伴う"を,右側の数値はバックオフスムージングにより得られる, "痛み が" の後に "伴う" が出現する確率を常用対数で表した値 "
"を示している.
また,バックオフスムージングとは,高次の-gramが存在しない場合において,低次の-gramの値を用いて高次の-gramの値を推定する方法である.