翻訳モデルの概要

次へ: IBM翻訳モデル 上へ: 翻訳モデル 戻る: 翻訳モデル目次

翻訳モデルの概要

翻訳モデルは，日本語の単語列から英語の単語列へと確率的に翻訳を行うためのモデルである．句に基づく翻訳モデルは，IBM翻訳モデル[6]を用いたGIZA++[7]から生成され，以下に示すフレーズテーブルという句の表により管理される．

フレーズテーブルの例
この $\vert\vert\vert$ This $\vert\vert\vert$ 0.666405 0.717667 0.427636 0.414483 2.718
この $\vert\vert\vert$ This is $\vert\vert\vert$ 0.0350318 0.717667 0.00184688 0.00875099 2.718
この $\vert\vert\vert$ This is the $\vert\vert\vert$ 0.0338983 0.717667 0.000335796 0.000587052 2.718
この本 $\vert\vert\vert$ This book $\vert\vert\vert$ 0.623288 0.585559 0.535294 0.219275 2.718
この本 $\vert\vert\vert$ This book is $\vert\vert\vert$ 0.235294 0.585559 0.0235294 0.00462955 2.718
…

左から，日本語フレーズ，英語フレーズ，そして，フレーズ対応の確率値5つである．確率値は，左から，英日方向の翻訳確率，英日方向の単語の翻訳確率の積(IBM翻訳モデル)，日英方向の翻訳確率，日英方向の単語の翻訳確率の積(IBM翻訳モデル)，そして，フレーズペナルティ(値は常に自然対数の底 = 2.718)である．

フレーズテーブルを生成する際，フレーズ内の単語の数を制限するものとして，max-phrase-length(Maximum Phrase Length)が定義されている．例として，max-phrase-lengthが10の場合，日英方向または英日方向の単語列の長さが11以上のフレーズは生成されない．max-phrase-lengthでフレーズ内の単語を制限することで，翻訳精度が向上する場合がある．

平成28年3月16日