鳥バンクの対訳句と自動抽出した対訳句を照合した結果,鳥バンクと一致した自動抽出した対訳句は45,161句対であった.また,鳥バンクの対訳句と一致しなかった自動抽出した対訳句からも一致した対訳句と同数の対訳句を無作為抽出し,合計90,322句対の自動抽出した対訳句をモデルの学習に用いる. 本研究は統計ソフトRを用いてモデルの学習を行う.Rより得られた出力を以下に示す.
統計ソフトRの出力結果 |
Call: glm(formula = Object_Func ~ Prob_JP + Prob_EN + Sent_JE + Sent_EJ + Var_JE + Var_EJ, family = binomial, data = data) Deviance Residuals: Min 1Q Median 3Q Max -2.5548 -0.7102 0.1224 0.6379 3.8446 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 3.3368508 0.0311004 107.293 < 2e-16 *** Prob_JP 0.0163943 0.0001599 102.514 < 2e-16 *** Prob_EN 0.0068223 0.0001403 48.637 < 2e-16 *** Sent_JE 0.1235362 0.0073223 16.871 < 2e-16 *** Sent_EJ -0.2302809 0.0073989 -31.124 < 2e-16 *** Var_JE -0.0170917 0.0062589 -2.731 0.00632 ** Var_EJ 0.2211758 0.0063798 34.668 < 2e-16 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 125213 on 90321 degrees of freedom Residual deviance: 82244 on 90315 degrees of freedom AIC: 82258 Number of Fisher Scoring iterations: 5 |
ここで,Prob_JPは日英方向の対数フレーズ確率を, Prob_ENは英日方向の対数フレーズ確率, Sent_JEは対訳学習文における日英方向の対数翻訳確率, Sent_EJは対訳学習文における英日方向の対数翻訳確率, Var_JEは対訳句抽出における日英方向の対数翻訳確率, Var_EJは対訳句抽出における英日方向の対数翻訳確率を表す. 各独立変数において,対訳句抽出における日英方向の対数翻訳確率の 値(Pr)はやや高いものの,各 値より,全ての独立変数が有意であることがわかる.
モデルの学習より求めた回帰係数(Estimate)を用いた線形回帰モデルを式(4.1)に示す.
モデルの学習より求めた回帰係数を式(3.3)に代入し,本研究におけるロジスティック回帰モデルを作成する.そして,ロジスティック回帰モデルより,各自動抽出した対訳句に確率を付与する.なお,ロジスティック回帰分析から得た確率においても対数をとる.ロジスティック回帰分析から得た確率の例を表4.5に示す.本研究では従来手法における対数フレーズ確率をロジスティック回帰分析から得た確率に置き換え,パターンに基づく日英統計翻訳を行う.
日本語句 | 英語句 | ロジスティック回帰分析 |
から得た確率(対数) | ||
英語 | English | -0.116 |
あの 人 | That person | -0.129 |
室温 を 調節 | device | -3.123 |
この 切符 で | will admit | -5.478 |