(3.25) | |||
(3.26) | |||
(3.27) |
``She is wise .''という英語文に対するとした2-gramモデルの 例を以下に示す.
(3.28) |
3-gramモデルであれば ,4-gramモデルであれば となる.また,のモデルをuni-gram,のモデルを bi-gram,のモデルをtri-gramと特有の呼びかたをする.以 上は4-gramなど数値を用いて呼ぶ.一般的にtrigramの精度が高いとされている. (3.9)式を最尤推定により求めると以下の式となる.
この(3.29)式から信頼性の高い値を推定するためには単語列が 多く出現している必要がある.しかし実際には多くの単語列は出現数がと なることが多いため信頼できる値を推定できない場合が多い.したがって,スムー ジングを行う.スムージングとは生起確率がとなるのを防ぐために,大きい確 率値を小さく,小さい確率値を大きくし,確率値の平滑化する手法であり,代表 的な手法にバックオフスムージングがある.バックオフスムージングでは学習デー タに出現しないN-gramを-gramの値から推定を行う.tri-gram の場合には確率が以下の式で推定される.
(3.30) |
N-gramモデルは局所的な情報であり,少ない文法情報しか保持できない. したがって,文法構造が似ている言語間では,部分的な翻訳で十分な翻訳文が生 成でき,翻訳精度が高い傾向がある.また,日本語と英語のような文法構造の異 なる言語間では特異な文が生成される場合があり翻訳精度が低下する傾向がある.