江木は統計的手法を用いて,大量の対訳文から対訳句を自動で抽出する手法[#!bib:eki!#]を提案した. 自動であるため,対訳句を手動で抽出する場合に比べコストが低く,大量の対訳句を抽出した. しかし,対訳句の翻訳精度はまだ低い. その原因の一つは,変数が複数の対訳文パターンにあると考えられる. なぜなら,対訳文パターン中に占める変数の割合が多くなるほど,対訳文と対訳文パターンが一致しやすくなるが,文構造を一致させることは困難になる. また,対訳言語が一対一で対応していない場合,対訳文パターン中で連続した変数部において,適切な位置で変数部を区切って対訳句を抽出することが困難になる.
本研究では,対訳句の抽出精度の向上を目指し,変数が1つの対訳文パターンを用いて,対訳句の抽出を行う. また,変数が1つの対訳文パターンを用いて抽出した対訳句に基づき,さらに変数が1つの対訳文パターンを作成した. そして,増加させた対訳文パターンを用いて,対訳句の抽出を行う. 最後に,抽出した対訳句からランダムに100対を人手評価し,対訳句の抽出精度を調査する.
本論文の構成を以下に示す.
第2章で,対訳句の自動抽出手法について説明する.
第3章で,変数が1つの対訳文パターンを用いた対訳句の自動抽出手法について説明する.
第4章で,実験条件を述べる.
第5章で,実験結果を示す.
第章で,追加実験条件を述べる.
第章で,追加実験結果を示す.
第11章で,本研究の考察を述べる.