近年,機械翻訳の分野で原言語から目的言語に翻訳する統計翻訳が注目されている. 統計翻訳は対訳文を用いてフレーズごとの翻訳確率翻訳モデルや単語確率である言語モデルを学習する. そして,文が入力された時に翻訳モデルと言語モデルの組合せから確率が最大となる文を出力文として得る. 統計翻訳において,対訳文数が多ければ翻訳精度は高くなるが,対訳文数の量には限界がある.
この問題に対し,対訳コーパスに対訳句コーパスを追加する手法の研究が行われ, 自動評価結果が向上したとの報告がある. この研究は,セルビア語英語間,スペイン語英語間[1]そしてブルトン語フランス語間[2]における句に基づく統計翻訳(PSMT)において行われている. また日野らの研究においても,日本語英語間のPSMTにおける対訳コーパスへの対訳句コーパスの追加の効果が報告されている[3] .
ところで,階層型統計翻訳(HSMT)は文の構造を考慮して翻訳を行うため,PSMTよりも翻訳精度が高いことが一般的に知られている.
そこで,本研究では対訳コーパスに対訳句コーパスを追加する手法を日本語英語間のHSMTにおいて行う. 辞書のデータから抽出した対訳句コーパスを用いる. 日英対訳コーパスを用いて言語モデルの学習する. 日英対訳コーパスに対訳句コーパスを加えて翻訳モデルを学習し, HSMTを行う方法を提案手法とし,翻訳精度の調査を行う.
日英対訳コーパスは単文コーパスと重文複文コーパス[4]を用いる. 対訳句コーパスとして鳥バンク[5] と英辞郎[6] を用いる.
その結果,自動評価結果と人手評価結果のどちらにおいても提案手法の翻訳精度は向上した. よって,日本語英語間のHSMTでもPSMTと同様に,対訳句コーパスを用いた提案手法は有効であると確認できた.