次へ: パターン翻訳の概要 上へ: パターン翻訳を用いた学習データ増加手法の検討 戻る: パターン翻訳を用いた学習データ増加手法の検討目次

背景および目的

統計翻訳の翻訳品質は，学習データとして用いる対訳データの量に依存する[1]．しかし，人手で翻訳した高品質な対訳データの収集には量的な限界があり，作成コストも大きい．特に，日英間における統計翻訳では，対訳データの不足が大きな問題となっている．

Xiaoguangらは，中英翻訳において，単言語データをルールベース翻訳システムによって翻訳し，既存の対訳データに加えることで翻訳精度の向上を試みた[12]．また，Schwenkは，仏英翻訳において，大量の単言語データを統計翻訳によって翻訳し，対訳データに追加することで，対訳コーパスを増加させた[13]．しかし，いずれも翻訳精度の向上はほとんど認められなかった．原因として，対訳学習データへ付与した翻訳データの精度に問題があったと考えられる．

そこで本研究では，先行研究における単言語データの翻訳に，パターン翻訳を用いる手法を提案する．パターン翻訳の特徴として，パターンに照合した翻訳文の翻訳品質が高い点が挙げられる[14]．高品質な単言語データの翻訳対を対訳学習データに付与することで，既存の統計翻訳システムにおける翻訳品質の向上を目指す．

平成25年2月12日