Next: 変換テーブルの作成例
Up: 変換テーブルの自動作成手法の手順
Previous: 文パターンの作成
Contents
変換テーブルは「82#82が83#83ならば84#84は85#85」という形式である.「82#82が83#83」には文パターンの作成の際に利用した対訳単語が当たる.そして,「84#84は85#85」には文パターン原文とは別の対訳文に文パターンを当てることによって抽出した日本語句と英語句の対が当たる.また,変換テーブルにはIBM model1を利用して計算した変換テーブルの適用確率,dice係数を利用して計算した変換テーブルの適用確率,またその順位などを情報として含む.
文パターンと文パターン原文とは別の対訳文を照合する.変数化した対訳単語と変数に当たる句を変換テーブルとする.変換テーブルの作成例を表3.8に示す.
Table 3.8:
文パターンと対訳文から作られる変換テーブル
|
なお,以下の条件に当てはまる変換テーブルは削除し,以降の処理には使用しない.これは,学習速度,学習の安定性を目的とした枝刈り処理である.
- 「84#84は85#85」日本語 90#90 英語方向の翻訳確率の順位が16位以降(IBM model1による確率を参照)
- 「84#84は85#85」英語 90#90 日本語方向の翻訳確率の順位が64位以降(IBM model1による確率を参照)
- 「84#84は85#85」の対訳文中の共起頻度が1回以下
- 「82#82は83#83」日本語 90#90 英語方向の単語翻訳確率の順位が4位以降(IBM model1による確率を参照)
- 「82#82は83#83」英語 90#90 日本語方向の単語翻訳確率の順位が4位以降(IBM model1による確率を参照)
- 「82#82は83#83」の対訳文中の共起頻度が1回以下
Hiroto Yasuba
2019-05-08