次へ: 日英統計翻訳システム 上へ: B07T2046B_soturon 戻る: 表一覧目次

はじめに

機械翻訳において，人手で翻訳規則を定義し，翻訳を行うルールベース翻訳が一般的であった．しかし，人手で翻訳規則を定義するには，莫大なコストがかかる．また，言語毎に文法規則が異なるため，多言語への拡張が困難であった．そこで近年では，統計翻訳が主流となっている．統計翻訳では，対訳コーパスから，自動的に翻訳規則を獲得するため，ルールベース翻訳に比べコストが低い．また，多言語への拡張が容易である．ここで，対訳コーパスとは，二言語間における対訳データを1文対応でまとめたコーパスである．これまでの研究で，統計翻訳における翻訳品質は，対訳コーパスの量に大きく依存することが分かっている[1]．統計翻訳において，この対訳コーパスを如何に獲得するかが大きな課題となっている．日英翻訳においても，日英対訳コーパスの量は，欧米諸国の対訳コーパスの量と比較すると非常に少量であるため，さらなる日英対訳コーパスの獲得が望まれる．しかし，対訳コーパスの作成には，モノリンガルコーパスに比べて膨大なコストがかかるという問題がある．

この問題を解決するために，様々な研究がなされている． Xiaoguangらは，中英翻訳において，モノリンガルコーパスを，ルールベース翻訳を用いて翻訳し，モノリンガルコーパスとその翻訳文を対訳コーパスに加えることで翻訳精度の向上を試みた[2]．また，Holgerは，仏英翻訳において，大量のモノリンガルコーパスを，統計翻訳を用いて翻訳することで，対訳コーパスを増加させた[3]．しかし，いずれも翻訳精度の向上はほとんど認められなかった．これは，モノリンガルコーパスの翻訳文全てを用いたためであると考えられる．

そこで本研究では，モノリンガルコーパスの翻訳文から精度の高い文を抽出し，対訳コーパスに加える手法を提案する．モノリンガルコーパスと，精度の高い翻訳文の対を学習データに加えることで，翻訳精度の向上を目指す．また，対訳辞書データを補うため，``英辞郎"[4]を用いる．翻訳対の量が多い英辞郎のデータを対訳コーパスに付与することで，統計翻訳の精度を向上させる．

本論文の構成を以下に示す．第2章で従来の日英統計翻訳システムについて説明し，第3章で提案手法のシステムについて説明する．そして，第4章では実験環境を，第5章で実験結果を示し，第6章で本研究の考察を述べ，第7章で今後の課題を述べる．

平成23年3月3日