next up previous contents
次へ: デコーダ 上へ: 英日統計翻訳システム 戻る: フレーズテーブル作成法   目次

言語モデル

言語モデルとは,膨大な量の単言語データを用いて単語の列や文字の列が起こる確率を付与するモデルである.統計翻訳では主に$N$-gramを用いる.以下に言語モデル(tri-gram)の例を示す.表中の$w_1$$w_2$$w_3$はそれぞれtri-gramの単語列における1番目,2番目,3番目の単語を示している.



表: 言語モデルの例
tri-gramの単語列 $log_{10}(P(w_3\ \vert \ w_1$ $w_2))$ $log_{10}(P(w_3\ \vert \ w_1$ $w_2))$
$w_1$ $w_2$ $w_3$ (スムージングなし) (バックオフスムージング)
痛み が 伴う -1.382585 -0.3105274
堤防 が 決壊 -1.061585 -0.1920604
天気 が よかっ -1.768149 -0.1920604
納得 が いか -0.6635545 -0.1101559
梅雨 が 明け -0.7214168 -0.1029072
風 が 吹く -2.222238 -0.1920604

表の1行目の例では,左側の数値が,``痛み'' と ``が'' という文字列が連続した後に,``伴う'' が出現する確率を常用対数で表した値 `` $log_{10}(P(伴う\ \vert\ 痛み$ $が))=-1.382585$'' を, 中央がtri-gramで表された単語列である ``痛み が 伴う''を,右側の数値はバックオフスムージングにより得られる, ``痛み が'' の後に ``伴う'' が出現する確率を常用対数で表した値 `` $log_{10}(P(伴う\ \vert\ 痛み$ $が))=-0.3105274$''を示している.

また,バックオフスムージングとは,高次の$N$-gramが存在しない場合において,低次の$N$-gramの値を用いて高次の$N$-gramの値を推定する方法である.


平成26年3月13日