この問題に対し,対訳コーパスに対訳句コーパスを追加する手法の研究が行われ, 自動評価結果が向上したとの報告がある. この研究は,セルビア語英語間,スペイン語英語間[1],ブルトン語フランス語間[2]そして,日本語英語間[3]における句に基づく統計翻訳(PSMT)において行われている.
Maja Popoviらはセルビア語英語間,スペイン語英語間において,対訳コーパスに対訳句コーパスを追加し句に基づく統計翻訳を行った[1]. セルビア語英語間の翻訳で,対訳句コーパスとして351対訳句を使用した. セルビア語英語方向の翻訳において,対訳コーパス0.2kに対訳句コーパスを追加することによって, BLEUスコアで0.020の向上を報告した. また,スペイン語英語間の翻訳で,対訳句コーパスとして52,566対訳句を使用した. スペイン語英語方向の翻訳において,対訳コーパス1kに対訳句コーパスを追加することによって,BLEUスコアで0.06の向上を報告した.
Francis M Tyersはブルトン語フランス語間の翻訳において対訳句コーパスを用いた[2]. その結果,対訳コーパス27,987文に語彙変化しない対訳句コーパスとして7k対訳句対を追加することによって,BLEUスコアで0.01の向上を報告した. また,対訳コーパスに語彙変化させた対訳句コーパスとして43k対訳句対を追加することによってBLEUスコアで0.07の向上を報告した.
日野らは日本語英語間の翻訳において対訳句コーパスを用いた[3]. その結果,対訳コーパス100kに対訳句コーパスとして698,472対訳句を追加することによって,BLEUスコアで0.02の向上を報告した.
ところで,階層型統計翻訳(HSMT)は文の構造を考慮して翻訳を行うため,PSMTよりも翻訳精度が高いことが一般的に知られている.
そこで,本研究では対訳コーパスに対訳句コーパスを追加する手法を日本語英語間のHSMTにおいて行う. 辞書のデータから抽出した対訳句コーパスを用いる. 日英対訳コーパスを用いて言語モデルの学習する. 日英対訳コーパスに対訳句コーパスを追加して翻訳モデルを学習し, HSMTを行う方法を提案手法とし,翻訳精度の調査を行う.
日英対訳コーパスは単文コーパスと重文複文コーパス[4]を用いる. 対訳句コーパスとして鳥バンク[5]から抽出した対訳句 と英辞郎[6]から抽出した対訳句 を用いる.
その結果,自動評価結果と人手評価結果のどちらにおいても提案手法の翻訳精度は向上した. よって,日本語英語間のHSMTでもPSMTと同様に,対訳句コーパスを用いた提案手法は有効であると確認できた.
本論文の構成は以下の通りである. まず,2章で統計翻訳システムの概要を示し,各モデルの学習,評価方法について述べる. 3章では,本研究の提案手法について述べる. 4章では,実験に用いるデータやツールといった実験環境について述べる. 5章では,提案手法の結果を示す. そして,6章で考察を行い,7章で分野外実験を行う. 最後に8章で結論を述べ,まとめる.