next up previous
次へ: 評価方法 上へ: 実験 戻る: コーパス

翻訳システム

本研究で使用する翻訳システムを,以下に示す.

  1. ルールベース翻訳

    ルールベース翻訳とは,人手によって構成された変換規則を元に翻訳を行うシ ステムである.現地点では,日英・英日翻訳において,統計翻訳より翻訳精度が高いことが知られている. 本研究では,ルールベース翻訳に東芝の Tauras[8]と富士通のAtlas[3]を使用する.

  2. 句に基づく統計翻訳

    統計翻訳とは,対訳コーパスより翻訳規則を生成し,翻訳を行うシステムであ る.入力文が与えられた時,デコーダで翻訳モデルと言語モデルの確率を組み 合わせ,生成確率が最大となる文を求めて翻訳を行う翻訳システムである.統 計翻訳には,単語に基づく統計翻訳,句に基づく統計翻訳,階層型統計翻訳な どがある.現在,句に基づく統計翻訳は,対訳句を用いて翻訳を行う方法で, 翻訳方式のなかで最も良く利用されている.本実験では,句に基づく統計翻訳 としてmoses[5]を用いる.また,パラメータチューニングを行う.

  3. 階層型統計翻訳

    階層型統計翻訳[9]は, 木構造を用いて翻訳を行う.具体的には SCFGに基づいて翻訳を行う.そのため,階層型統計翻訳は句に基づく統計翻訳よりも,人手の評価において翻訳精度が 高くなることが知られている[10].本実験では階層型統計翻訳としてmoses[5]を用 いる.

  4. ハイブリッド翻訳

    ハイブリッド翻訳[11]とは,前処理としてルールベース翻訳を,後 処理として統計翻訳を用いる.ハイブリッド翻訳は,自動評価において最も翻 訳精度が高くなることが知られている.以下に手順を示す.

    手順1
    ルールベース翻訳を用いて,日英対訳コーパスの日本語文を英'語文に翻訳する.

    手順2
    手順1で作成した英'語文と日英対訳コーパスの英語文を用いて,翻訳モデルを作成する.

    手順3
    日英対訳コーパスの英語文を用いて,言語モデルを作成する.

    手順4
    ルールベース翻訳を用いて,テスト文の日本語文を英'語文に翻訳する.

    手順5
    手順4で作成した英'語文を入力文として,英'英統計翻訳を行う.翻訳 モデルと言語モデルは,手順2と手順3で作成されたものを使用する.

    本研究では,後処理としての統計翻訳として,句に基づく統計翻訳と,階層型 統計翻訳の2種類を利用する.

本研究では計8種類の翻訳システム利用した.使用した翻訳システムを表 4に略記と共に示す.

表 4: 本研究で使用する翻訳システム
翻訳システム 略記
1 ルールベース翻訳 RBMT(t)
(Tauras)
2 ルールベース翻訳 RBMT(a)
(Atlas)
3 句に基づく統計翻訳 PSMT
(Moses)
4 階層型統計翻訳 HSMT
(Moses)
5 前処理:ルールベース翻訳 RBMT(t)+PSMT
+後処理:句に基づく統計翻訳
(Tauras+Moses)
6 前処理:ルールベース翻訳 RBMT(a)+PSMT
+後処理:句に基づく統計翻訳
(Atlas+Moses)
7 前処理:ルールベース翻訳 RBMT(t)+HSMT
+後処理:階層型統計翻訳
(Tauras+Moses)
8 前処理:ルールベース翻訳 RBMT(a)+HSMT
+後処理:階層型統計翻訳
(Atlas+Moses)


next up previous
次へ: 評価方法 上へ: 実験 戻る: コーパス
Jin'ichi Murakami 平成25年6月26日