next up previous contents
次へ: 日英統計翻訳システム 上へ: B07T2046B_soturon 戻る: 表一覧   目次

はじめに

機械翻訳において,人手で翻訳規則を定義し,翻訳を行うルールベース翻訳が一般的であった. しかし,人手で翻訳規則を定義するには,莫大なコストがかかる.また,言語毎に文法規則が異なるため, 多言語への拡張が困難であった. そこで近年では,統計翻訳が主流となっている. 統計翻訳では,対訳コーパスから,自動的に翻訳規則を獲得するため,ルールベース翻訳に比べコストが低い.また,多言語への拡張が容易である.ここで,対訳コーパスとは,二言語間における対訳データを1文対応でまとめたコーパスである. これまでの研究で,統計翻訳における翻訳品質は,対訳コーパスの量に大きく依存することが分かっている[1]. 統計翻訳において,この対訳コーパスを如何に獲得するかが大きな課題となっている.日英翻訳においても,日英対訳コーパスの量は,欧米諸国の対訳コーパスの量と比較すると非常に少量であるため,さらなる日英対訳コーパスの獲得が望まれる. しかし,対訳コーパスの作成には,モノリンガルコーパスに比べて膨大なコストがかかるという問題がある.

この問題を解決するために,様々な研究がなされている. Xiaoguangらは,中英翻訳において,モノリンガルコーパスを,ルールベース翻訳を用いて翻訳し,モノリンガルコーパスとその翻訳文を対訳コーパスに加えることで翻訳精度の向上を試みた[2]. また,Holgerは,仏英翻訳において,大量のモノリンガルコーパスを,統計翻訳を用いて翻訳することで, 対訳コーパスを増加させた[3].しかし,いずれも翻訳精度の向上はほとんど認められなかった.これは,モノリンガルコーパスの翻訳文全てを用いたためであると考えられる.

そこで本研究では,モノリンガルコーパスの翻訳文から精度の高い文を抽出し,対訳コーパスに加える 手法を提案する.モノリンガルコーパスと,精度の高い翻訳文の対を学習データに加えることで,翻訳 精度の向上を目指す.また,対訳辞書データを補うため,``英辞郎"[4]を用いる.翻訳対の量が多い英辞郎の データを対訳コーパスに付与することで,統計翻訳の精度を向上させる.

本論文の構成を以下に示す.第2章で従来の日英統計翻訳システムについて説明し,第3章で提案手法のシステムについて説明する.そして,第4章では実験環境を,第5章で実験結果を示し,第6章で本研究の考察を述べ,第7章で今後の課題を述べる.



平成23年3月3日