本研究で使用する翻訳システムを,以下に示す.
ルールベース翻訳とは,人手によって構成された変換規則を元に翻訳を行うシ ステムである.現地点では,日英・英日翻訳において,統計翻訳より翻訳精度が高いことが知られている. 本研究では,ルールベース翻訳に東芝の Tauras[8]と富士通のAtlas[3]を使用する.
統計翻訳とは,対訳コーパスより翻訳規則を生成し,翻訳を行うシステムであ る.入力文が与えられた時,デコーダで翻訳モデルと言語モデルの確率を組み 合わせ,生成確率が最大となる文を求めて翻訳を行う翻訳システムである.統 計翻訳には,単語に基づく統計翻訳,句に基づく統計翻訳,階層型統計翻訳な どがある.現在,句に基づく統計翻訳は,対訳句を用いて翻訳を行う方法で, 翻訳方式のなかで最も良く利用されている.本実験では,句に基づく統計翻訳 としてmoses[5]を用いる.また,パラメータチューニングを行う.
階層型統計翻訳[9]は, 木構造を用いて翻訳を行う.具体的には SCFGに基づいて翻訳を行う.そのため,階層型統計翻訳は句に基づく統計翻訳よりも,人手の評価において翻訳精度が 高くなることが知られている[10].本実験では階層型統計翻訳としてmoses[5]を用 いる.
ハイブリッド翻訳[11]とは,前処理としてルールベース翻訳を,後 処理として統計翻訳を用いる.ハイブリッド翻訳は,自動評価において最も翻 訳精度が高くなることが知られている.以下に手順を示す.
本研究では計8種類の翻訳システム利用した.使用した翻訳システムを表
4に略記と共に示す.
翻訳システム | 略記 | |
1 | ルールベース翻訳 | RBMT(t) |
(Tauras) | ||
2 | ルールベース翻訳 | RBMT(a) |
(Atlas) | ||
3 | 句に基づく統計翻訳 | PSMT |
(Moses) | ||
4 | 階層型統計翻訳 | HSMT |
(Moses) | ||
5 | 前処理:ルールベース翻訳 | RBMT(t)+PSMT |
+後処理:句に基づく統計翻訳 | ||
(Tauras+Moses) | ||
6 | 前処理:ルールベース翻訳 | RBMT(a)+PSMT |
+後処理:句に基づく統計翻訳 | ||
(Atlas+Moses) | ||
7 | 前処理:ルールベース翻訳 | RBMT(t)+HSMT |
+後処理:階層型統計翻訳 | ||
(Tauras+Moses) | ||
8 | 前処理:ルールベース翻訳 | RBMT(a)+HSMT |
+後処理:階層型統計翻訳 | ||
(Atlas+Moses) |