概要

対訳句は翻訳において重要な要素である. 対訳句を手動で抽出する場合,コストが高く,作成数に制限がかかる.

江木は統計的手法を用いて,大量の対訳文から,対訳句を自動で抽出する手法を提案した. 自動であるため,対訳句を手動で抽出する場合に比べコストが低く,大量の対訳句を抽出した. しかし,対訳句の抽出精度はまだ低い. その原因の一つは,変数が多い対訳文パターンにあると考えられる. なぜなら,対訳文パターン中に占める変数の割合が多くなるほど,対訳文と対訳文パターンが一致しやすくなるが,文構造を一致させることは困難になる. また,対訳言語が一対一で対応していない場合,対訳文パターン中で連続した変数部において,適切な位置で変数部を区切って対訳句を抽出することが困難になる.

本研究では,対訳句の抽出精度の向上を目指し,変数が1つの対訳文パターンを用いて,対訳句を抽出する. また,変数が1つの対訳文パターンを用いて抽出した対訳句に基づき,さらに変数が1つの対訳文パターンを作成した. そして,増加させた対訳文パターンを用いて,対訳句の抽出を行った. 最後に,抽出した対訳句を人手評価し,対訳句の抽出精度を調査した.

評価の結果,変数が1つの対訳文パターンを用いた対訳句の抽出は,抽出精度が非常に高いことがわかった. 加えて,抽出した対訳句から,対訳文パターンを作成し,対訳句の抽出を繰り返すことで,ある程度の抽出精度を維持しながら,抽出数を増加させることができた. しかし,変数が複数の対訳文パターンを用いた対訳句の抽出に比べ,抽出数が非常に少なくなった.

今後は,対訳句の抽出をさらに繰り返すことや,変数が2つの対訳文パターンを用いて,対訳句の抽出を行うなどして,抽出数を増加させることを考える必要がある.