Next: 文パターンの作成
Up: 変換テーブルの自動作成手法の手順
Previous: 変換テーブルの自動作成手法の手順
Contents
対訳単語の作成
対訳単語とは,対訳文中の日本語単語と英語単語の組み合わせである.対訳単語には日本語単語が英語単語に翻訳される確率と英語単語が日本語単語に翻訳される確率やその順位などの情報が含まれる.
IBM model1(単語翻訳確率)を用いて,対訳文から対訳単語を作成する.
単語翻訳確率はGIZA++-v1.0.7[3]を利用して得る.学習回数は4回である.対訳単語の作成例を表3.6に示す.
Table 3.6:
対訳文から作られる対訳単語
対訳文 |
私 の 医者 は 親切 だ |
My doctor is gentle |
対訳単語 |
私 |
My |
医者 |
doctor |
親切 |
gentle |
etc... |
なお,以下の条件に当てはまる対訳単語は削除し,以降の処理には使用しない.これは,学習速度,学習の安定性を目的とした枝刈り処理である.
- 日本語 90#90 英語方向の単語翻訳確率が0.01以下
- 英語 90#90 日本語方向の単語翻訳確率が0.01以下
- 日本語 90#90 英語方向の単語翻訳確率の順位が8位以降
- 英語 90#90 日本語方向の単語翻訳確率の順位が8位以降
- 対訳単語の対訳文中の共起頻度が1回以下
Hiroto Yasuba
2019-05-08