next up previous contents
次へ: 統計翻訳システム 上へ: honron 戻る: 表一覧   目次

はじめに

近年,機械翻訳の分野で原言語から目的言語に翻訳する統計翻訳が注目されている. 統計翻訳は対訳文を用いてフレーズごとの翻訳確率翻訳モデルや単語確率である言語モデルを学習する. そして,文が入力された時に翻訳モデルと言語モデルの組合せから確率が最大となる文を出力文として得る. 統計翻訳において,対訳文数が多ければ翻訳精度は高くなるが,対訳文数には限りがある.

この問題に対し,対訳コーパスに対訳句コーパスを追加する手法の研究が行われ, 自動評価結果が向上したとの報告がある. この研究は,セルビア語英語間,スペイン語英語間[1],ブルトン語フランス語間[2]そして,日本語英語間[3]における句に基づく統計翻訳(PSMT)において行われている.

Maja Popovi$\acute{c}$らはセルビア語英語間,スペイン語英語間において,対訳コーパスに対訳句コーパスを追加し句に基づく統計翻訳を行った[1]. セルビア語英語間の翻訳で,対訳句コーパスとして351対訳句を使用した. セルビア語英語方向の翻訳において,対訳コーパス0.2kに対訳句コーパスを追加することによって, BLEUスコアで0.020の向上を報告した. また,スペイン語英語間の翻訳で,対訳句コーパスとして52,566対訳句を使用した. スペイン語英語方向の翻訳において,対訳コーパス1kに対訳句コーパスを追加することによって,BLEUスコアで0.06の向上を報告した.

Francis M Tyersはブルトン語フランス語間の翻訳において対訳句コーパスを用いた[2]. その結果,対訳コーパス27,987文に語彙変化しない対訳句コーパスとして7k対訳句対を追加することによって,BLEUスコアで0.01の向上を報告した. また,対訳コーパスに語彙変化させた対訳句コーパスとして43k対訳句対を追加することによってBLEUスコアで0.07の向上を報告した.

日野らは日本語英語間の翻訳において対訳句コーパスを用いた[3]. その結果,対訳コーパス100kに対訳句コーパスとして698,472対訳句を追加することによって,BLEUスコアで0.02の向上を報告した.

ところで,階層型統計翻訳(HSMT)は文の構造を考慮して翻訳を行うため,PSMTよりも翻訳精度が高いことが一般的に知られている.

そこで,本研究では対訳コーパスに対訳句コーパスを追加する手法を日本語英語間のHSMTにおいて行う. 辞書のデータから抽出した対訳句コーパスを用いる. 日英対訳コーパスを用いて言語モデルの学習する. 日英対訳コーパスに対訳句コーパスを追加して翻訳モデルを学習し, HSMTを行う方法を提案手法とし,翻訳精度の調査を行う.

日英対訳コーパスは単文コーパスと重文複文コーパス[4]を用いる. 対訳句コーパスとして鳥バンク[5]から抽出した対訳句 と英辞郎[6]から抽出した対訳句 を用いる.

その結果,自動評価結果と人手評価結果のどちらにおいても提案手法の翻訳精度は向上した. よって,日本語英語間のHSMTでもPSMTと同様に,対訳句コーパスを用いた提案手法は有効であると確認できた.

本論文の構成は以下の通りである. まず,2章で統計翻訳システムの概要を示し,各モデルの学習,評価方法について述べる. 3章では,本研究の提案手法について述べる. 4章では,実験に用いるデータやツールといった実験環境について述べる. 5章では,提案手法の結果を示す. そして,6章で考察を行い,7章で分野外実験を行う. 最後に8章で結論を述べ,まとめる.



平成26年3月29日