次へ: 提案手法の詳細
上へ: 提案手法
戻る: 提案手法
目次
提案手法の概略
パターン翻訳は,原言語文と目的言語文で構成される対訳文に対して,任意の単語やフレーズを変数化した``文パターン''と``単語辞書''を用いて翻訳を行う方法である.パターン翻訳は長所として,入力文が適切な文パターンに適合した場合,高品質な翻訳文を得やすい傾向にある.しかし,パターン翻訳には多くの問題点がある.
本研究では中でもコストと翻訳精度とカバー率の問題を取り上げる.まず,パターン翻訳は問題点として,非常にコストと時間がかかる.この理由は単語辞書と文パターンを人手で作成するためである.本研究では単語辞書と文パターンをプログラムで自動作成することでコストの削減を試みる.
また,パターン翻訳は翻訳精度が高いとカバー率が低く,カバー率が高いと翻訳精度が低くなる傾向にある.このトレードオフの関係が発生する理由として,入力文に適合した文パターンが保持する字面の数が関係していると考えた.つまり,文パターンの字面が多ければ翻訳精度が高く(カバー率が低く),少なければカバー率が高く(翻訳精度が低く)なる.また,カバー率には,入力文が文パターンに適合しなければ翻訳ができない問題がある.
改善策として,翻訳精度の問題に対しては,入力文と文パターンの字面を比較する.そして字面が多く一致する文パターンを優先して選択することで翻訳精度の改善を試みる.カバー率の問題に対しては,大量の文パターンと単語辞書を作成することでカバー率の増加を試みる.
本研究では5つのステップを用いて英日パターン翻訳を行う.以下に手順を示す.
- 手順1 単語辞書
-
GIZA++を用いて,単語辞書を作成する.
- 手順2 単語に基づく文パターン辞書
-
単語辞書を用いて,単語に基づく文パターン辞書を作成する.
- 手順3 フレーズ辞書
-
単語に基づく文パターン辞書を用いて,フレーズ辞書を作成する.
- 手順4 句に基づく文パターン辞書
-
フレーズ辞書を用いて,句に基づく文パターン辞書を作成する.
- 手順5 英日パターン翻訳
-
フレーズ辞書と句に基づく文パターン辞書を用いて,英日パターン翻訳を行う.
なお,単語に基づく文パターンを用いた英日パターン翻訳の実験結果は [12]で報告している.また,4.2節で用いる対訳学習文とは,電子辞書から抽出した英日対訳文を指す.詳細は5.1節で説明する.
平成26年3月13日