next up previous contents
Next: IBM翻訳モデル Up: 従来手法 Previous: 未知語処理   目次

対訳単語辞書

2.1節の手順2で使用している対訳単語辞書は,対訳学習文とGIZA++を用いて,対訳単語に対訳単語確率を付与して作成する[2].対訳単語辞書の作成の流れを図2.2に示す.また,具体的な手順を以下に示す.
手順1
単語対応の取得
対訳学習文とGIZA++から,日英方向の単語対応と英日方向の単語対応を取得する.なお,表4の $ \log_2(P(J\vert E))$ は,英語単語が日本語単語に訳されるGIZA++の対訳単語確率である.単語対応の取得の例を表2.2.1に示す.

表: 単語対応の取得
日本語単語 英語単語 $ \log_2(P(E\vert J))$ $ \log_2(P(J\vert E))$
book -0.297 -0.144
誤植 misprint -3.816 -1.824


手順2
枝刈り処理
手順1で作成した対訳単語辞書には,明らかに不適切な対訳単語が多数含まれている.そこで,任意の閾値で枝刈り処理を行う.

図: 対訳単語辞書作成の流れ図



2019-03-08