Next: IBM翻訳モデル
Up: 従来手法
Previous: 未知語処理
目次
2.1節の手順2で使用している対訳単語辞書は,対訳学習文とGIZA++を用いて,対訳単語に対訳単語確率を付与して作成する[2].対訳単語辞書の作成の流れを図2.2に示す.また,具体的な手順を以下に示す.
- 手順1
- 単語対応の取得
対訳学習文とGIZA++から,日英方向の単語対応と英日方向の単語対応を取得する.なお,表4の
は,英語単語が日本語単語に訳されるGIZA++の対訳単語確率である.単語対応の取得の例を表2.2.1に示す.
表:
単語対応の取得
日本語単語 |
英語単語 |
|
|
本 |
book |
-0.297 |
-0.144 |
誤植 |
misprint |
-3.816 |
-1.824 |
- 手順2
- 枝刈り処理
手順1で作成した対訳単語辞書には,明らかに不適切な対訳単語が多数含まれている.そこで,任意の閾値で枝刈り処理を行う.
2019-03-08