対訳学習文における英語文の各フレーズとフレーズ辞書(手順3)の英語フレーズを照合する.
英語フレーズに対応する日本語フレーズと対訳学習文における日本語文の各フレーズを照合する.
対訳フレーズが照合に成功した場合,該当箇所を変数化し,文パターンを生成する.変数化するときに,変数の組み合わせを考慮し,可能な限り多くの句に基づく文パターンを生成する.本研究では,句に基づく文パターンの英語側を英語フレーズ,日本語側を日本語フレーズと呼ぶ.図4.9に句に基づく文パターン辞書の作成手順と例を示す.
図4.9において変数化されるフレーズ対は“Your friend あなた の 友達”,“many students 多く の 学生”である.この2つのフレーズ対が変数化される場合とされない場合の組み合わせを全て考慮し, =4通りの句に基づく文パターンを生成する.
文パターンの字面と単語辞書(GIZA)の単語確率を用いて,文パターンに翻訳確率を付与する.翻訳確率の付与は英日文パターンと日英文パターンに対して行う.また,手順3.3で説明したフレーズ確率の付与と同じ手法を用いる.本研究では計算した確率を文パターン確率(β)と呼ぶ.図4.10に,英日方向の文パターン確率の付与手順と例を,図に日英方向の文パターン確率の付与手順と例を示す.
図4.10に英日方向の句に基づく文パターンの例として“1 is trusted to 2 . 1 は 2 に 信頼 さ れ て いる 。” を示す.まず,英語文パターンの単語と日本語文パターンの単語の全ての組み合わせを得る.単語辞書(GIZA)の単語確率を用いて,各組み合わせの中から最大となる単語確率を得る.図4.10では “is は” に付与された確率“0.81”が最も高いため,0.81に対して対数を取る.“trusted”,``to''も同様に単語確率に対数を取り総和を求める.
同様に,図4.11に日英方向の句に基づく文パターンの例として“1 は 2 に 信頼 さ れ て いる 。 1 is trusted to 2 . ” を示す.まず,日本語文パターンの単語と英語文パターンの単語の全ての組み合わせを得る.単語辞書(GIZA)の単語確率を用いて,各組み合わせの中から最大となる単語確率を得る.図4.11では “は is” に付与された確率“0.11”が最も高いため,0.11に対して対数を取る.“に”,``信頼'',``さ'',``れ'',``て'',``いる'',も同様に単語確率に対数を取り総和を求める. 今回の例では,英日方向の文パターン確率-1.8と日英方向の文パターン確率-6.01の和である-7.81を文パターン確率(α)として付与する.