対訳学習文と単語に基づく文パターン辞書を照合する.
対訳学習文が単語に基づく文パターンに適合した場合,単語に基づく文パターンの変数部に対応する対訳フレーズを抽出する.また,本研究では対訳フレーズの英語側を英語フレーズ,日本語側を日本語フレーズと呼ぶ.
図4.5に対訳フレーズの抽出手順と例を示す.
対訳フレーズの翻訳確率を計算する.対訳フレーズの翻訳確率は英語フレーズが日本語フレーズに翻訳される確率と日本語フレーズが英語フレーズに翻訳される確率を計算する.以下に手順を示す.
A. 単語の組み合わせの取得
対訳フレーズにおいて,英語フレーズの単語と日本語フレーズの単語の全ての組み合わせを得る. 同様に日本語フレーズの単語の組み合わせと英語フレーズの単語の組み合わせも得る.
B. 翻訳確率の計算
各英単語に対応する日本語単語の中で,単語辞書(GIZA)の単語確率が最大となる単語確率を得る.同様に各日本語単語に対応する英単語の中で,単語辞書(GIZA)の単語確率が最大となる単語確率を得る.
C. 翻訳確率の付与
得られた単語確率に対して対数を取り,英日方向の翻訳確率の対数値の総和と日英方向の翻訳方向の対数値の総和を求める.英日方向の総和を英日フレーズ確率,日英方向の総和を日英フレーズ確率を呼ぶ.最後に英日フレーズ確率と日英フレーズ確率を足し合わせ,対訳フレーズの翻訳確率として付与する.本研究では計算した確率をフレーズ確率(α)と呼ぶ.
図4.6に英日方向の対訳フレーズの例として “many students 多く の 学生” を示す.まず,英語フレーズの単語と日本語フレーズの単語の全ての組み合わせを得る.単語辞書(GIZA)の単語確率を用いて,各組み合わせの中から最大となる単語確率を得る.図4.6では “many 多く” に付与された確率“0.81”が最も高いため,0.81に対して対数を取る.“students”も同様に単語確率に対数を取り総和を求める.
同様に,図4.7英日方向の対訳フレーズの例として “多く の 学生 many students” を示す.まず,日本語フレーズの単語と英語フレーズの単語の全ての組み合わせを得る.単語辞書(GIZA)の単語確率を用いて,各組み合わせの中から最大となる単語確率を得る.図4.7では “多く many” に付与された確率“0.92”が最も高いため,0.92に対して対数を取る.“の”,“学生”も同様に単語確率に対数を取り総和を求める.
今回は英日フレーズ確率の-7.88と日英フレーズ確率の-2.23の和である-10.11をフレーズ確率(α)として付与する.
次節で作成する句に基づく文パターンの数を抑制するため,抽出した対訳フレーズの選別を行う.対訳フレーズの選別は2つの手法を用いる.以下に手順を示す.
A. フレーズ確率への閾値設定
設定した閾値以上のフレーズ確率を持つフレーズのみを本研究では使用する.閾値の詳細は5章で説明する.
B. 対訳フレーズの単語数の差による抽出
英語フレーズと日本語フレーズの単語数の絶対値を計算する.英語フレーズの単語数を基準とし,対応する日本語フレーズ数が±5以内のフレーズのみを抽出する.例えば英語フレーズが2単語,日本語フレーズが3単語であれば抽出するが,英語フレーズが2単語,日本語フレーズが8単語であれば抽出しない.図4.8に単語数の差による抽出方法を示す.