そこで,本研究では語順変更の手法の限界を調査するため,テスト文に参照文があると仮定し,日本語文を英語の参照文の語順に並び替える.その後,句に基づく統計翻訳を行い,語順変更の効果を調査する.以下に手順を示す.
手順1 変数化
対訳句辞書と対訳文を用いて,学習文,テスト文,ディベロップメント文に変数化を行う.対訳句辞書と対訳文を比較し,共通する箇所を変数にする.なお,対訳句辞書には鳥バンク[12]約21万句を使用する.変数化の手順を図3.7に示す.
日本語文の文頭の``わたし''から順番に変数化を行う.英語文の文頭に``I''があり,対訳句辞書にも``わたし/I''があるので,変数化を行いX1とする.次に,日本語文の``は''を変数化しようと試みる.英語文の文頭の``I''はX1を変数にするときに使用したため,次の単語``got''から順番に対訳句辞書と比較する.つまり,``は/got''が対訳句辞書にあるかどうか調べる.対訳句辞書にない場合,英語文の``got''の次の単語``to''で対訳句辞書と比較する.つまり,``は/to''が対訳句辞書にあるかどうか調べる.この作業を繰り返し,英語の文末の単語(``path'')まで対訳句辞書と比較しても,共通する対訳句がないので字面として残す.次に,日本語文の``3''を変数化しようと試みる.英語文の``got''から順番に対訳句辞書と比較していくと,英語文の``three''のときに,対訳句辞書に``3/three''があるので,変数化を行いX2とする.以降,同様に日本語文と英語文に対して変数化を行う.
手順2 語順変更
対訳文を用いて,学習文,テスト文,ディベロップメント文の日本語文を英語文の変数の順番に並び替え,出力を日本語変更文とする.なお,移動単位は次の変数までとする.語順変更の手順を図3.8に示す.
手順1で作成した英語文の変数の順番,``X1,X9,X7,X8,X6,X2,X3,X4,X5''の順番に日本語文を並び替える.まず,X1の``わたし''を移動させる.なお,移動単位は次の変数までなので,次の変数(X2)までの``わたし は''を移動させる.次に,英語文の変数の順番に従って,X9の``着い''を移動させる.なお,X9は変数の最後なので,文末までの``着い た''を移動させる.以降,同様に日本語文を英語文の変数の順番に並び替える.
手順3 翻訳実験
学習文,テスト文,ディベロップメント文に語順変更を行ったデータを用いて,句に基づく統計翻訳を行う.