学習の手順

TDSMTにおける学習は“変換テーブルの作成”のみである.本節で作成手順を示す.

手順1 対訳単語の作成

  学習文対と対訳単語確率(IBM Model 1[14])を利用して, 対訳単語を作成する.このとき付与される対訳単語確率を$ P_w$とする. 例として, 表2.9に示す学習文対を使用して, 表2.10に示す対訳単語を作成する.表2.10の値は例であり, 実際の数値とは異なる.


表: 対訳単語作成に用いる学習文対
学習文対(日本語側) 彼の弟は学生だ。
学習文対(英語側) His brother is a student.


表: 作成される対訳単語
  日本語単語 英語単語 $ p_w$
対訳単語1 His 0.4
対訳単語2 brother 0.7
対訳単語3 学生 student 0.6

手順2 単語レベル文パターンの作成

  学習文対内で対訳単語に当たる部分を変数化し, 単語レベル文パターンを作成する. 例を表2.11に示す.


表: 単語レベル文パターンの作成例
学習文対(日本語側) 彼の兄は医者だ。
学習文対(英語側) His brother is a doctor.
単語レベル文パターン(日本語側) X0X1X2
単語レベル文パターン(英語側) X0 X1 is a X2

手順3 変換テーブルの作成

変換テーブルは「AがBならばCはD」という形式である.「AがB」には文パターンの作成の際に利用した対訳単語が当たる.そして,「CはD」には文パターン原文とは別の対訳文に文パターンを当てることによって抽出した日本語句と英語句の対が当たる. 表2.12では変数N2の部分から変換テーブル“「学生」が「student」ならば「教師」は「teacher」”が得られる.


表: 変換テーブルの作成例
学習文対(日本語側) 彼の弟は学生だ。
学習文対(英語側) His brother is a student.
単語レベル文パターン(日本語側) X0X1X2だ。
単語レベル文パターン(英語側) X0 X1 is a X2 .
照合する学習文対(日本語側) 私の母は教師だ。
照合する学習文対(英語側) My mother is a teacher.
変換テーブル(X2) A:学生 B:student
  C:教師 D:teacher

手順4

計算時間短縮のため, 作成した変換テーブルの枝刈りを行う. 具体的には, 作成した変換テーブルが以下の条件に当てはまる場合に削除する.

手順4 変換テーブルに確率を付与

  対訳単語確率$ P_w$を利用し, 変換テーブルに確率を付与する.この確率を変換テーブル確率$ P_v$とする.
  1. 変換テーブルのCDに存在する全ての日英単語の組み合わせを確認する.
  2. 日本語単語に対応する英語単語の中で, 対訳単語確率$ P_w$の最大値を得る.
  3. 各日本語単語について得られた値と, 変換テーブルのABの対訳単語確率$ P_w$について, 対数の総和を求める.