この問題に対し,対訳コーパスに対訳句コーパスを追加し,自動評価結果が向上したとの報告がある. この研究はセルビア語英語間,スペイン語英語間[1]そしてブルトン語フランス語[2]の各翻訳において行われている.
Maja Popoviらはセルビア語英語間,スペイン語英語間において,対訳コーパスに対訳句コーパスを追加し統計翻訳を行った[1]. セルビア語英語間の翻訳で,対訳句コーパスとして351対訳句対使用した. セルビア語英語方向の翻訳において,対訳コーパス0.2kに対訳句コーパスを追加することによって, BLEUスコアで0.020の向上を報告した. また,スペイン語英語間の翻訳で,対訳句コーパスとして52,566対訳句対使用した. スペイン語英語方向の翻訳において,対訳コーパス1kに対訳句コーパスを追加することによって,BLEUスコアで0.06の向上を報告した.
Francis M Tyersはブルトン語フランス語間の翻訳において対訳句コーパスを用いた[2]. その結果,対訳コーパス27,987文に語彙変化しない対訳句コーパスとして7k対訳句対を追加することによって,BLEUスコアで0.01の向上を報告した. また,対訳コーパスに語彙変化させた対訳句コーパスとして43k対訳句対を追加することによってBLEUスコアで0.07の向上を報告した.
そこで,本研究では日本語英語間の翻訳において,同様の手法を用いる. 辞書のデータから抽出した対訳句コーパスを用いる. 日英対訳コーパスを用いて言語モデルの学習する. 日英対訳コーパスに対訳句コーパスを加えて翻訳モデルを学習し, 統計翻訳を行う方法を提案手法とし,翻訳精度の調査を行う. 日英対訳コーパスとして単文コーパスと重文複文コーパス[3]を用いる. 対訳句コーパスとして鳥バンク[4] と英辞郎[5] を用いる.
その結果,自動評価結果と人手評価結果のどちらにおいても提案手法はベースラインよりも翻訳精度が向上した. 日本語英語間の統計翻訳において,対訳句コーパスを用いた提案手法は有効であると確認できた.
本論文の構成は以下の通りである. まず,章で統計翻訳システムの概要を示し,各モデルの学習,評価方法について述べる. 章では,本研究の提案手法について述べる. 章では,実験に用いるデータやツールといった実験環境について述べる. 章では,提案手法の結果を示す. そして,章で考察を行い,最後に章で結論を述べ,まとめる.