tri-gramの単語列 | ||
(スムージングなし) | (バックオフスムージング) | |
痛み が 伴う | -1.382585 | -0.3105274 |
堤防 が 決壊 | -1.061585 | -0.1920604 |
天気 が よかっ | -1.768149 | -0.1920604 |
納得 が いか | -0.6635545 | -0.1101559 |
梅雨 が 明け | -0.7214168 | -0.1029072 |
風 が 吹く | -2.222238 | -0.1920604 |
表の1行目の例では,左側の数値が,``痛み'' と ``が'' という文字列が連続した後に,``伴う'' が出現する確率を常用対数で表した値 `` '' を, 中央がtri-gramで表された単語列である ``痛み が 伴う''を,右側の数値はバックオフスムージングにより得られる, ``痛み が'' の後に ``伴う'' が出現する確率を常用対数で表した値 `` ''を示している.
また,バックオフスムージングとは,高次の-gramが存在しない場合において,低次の-gramの値を用いて高次の-gramの値を推定する方法である.