next up previous contents
次へ: パターン翻訳の概要 上へ: パターン翻訳を用いた学習データ増加手法の検討 戻る: パターン翻訳を用いた学習データ増加手法の検討   目次

背景および目的

統計翻訳の翻訳品質は, 学習データとして用いる対訳データの量に依存する[1].しかし,人手で翻訳した高品質な 対訳データの収集には量的な限界があり,作成コストも大きい.特に,日英間における統計翻訳 では,対訳データの不足が大きな問題となっている.

Xiaoguangらは,中英翻訳において,単言語データをルールベース翻訳システムによって翻訳し,既存の 対訳データに加えることで翻訳精度の向上を試みた[12]. また,Schwenkは,仏英翻訳において,大量の単言語データを統計翻訳によって翻訳し,対訳データに 追加することで,対訳コーパスを増加させた[13]. しかし,いずれも翻訳精度の向上はほとんど認められなかった. 原因として,対訳学習データへ付与した翻訳データの精度に問題があったと考えられる.

そこで本研究では,先行研究における単言語データの翻訳に,パターン翻訳を用いる手法を提案する.パターン翻訳の特徴として,パターンに照合した翻訳文の翻訳品質が高い点が挙げられる[14].高品質な単言語データの翻訳対を対訳学習データに付与することで,既存の統計翻訳システムにおける翻訳品質の向上を目指す.


平成25年2月12日