近年,機械翻訳の分野で原言語から目的言語に翻訳する統計翻訳が注目されている. 統計翻訳は対訳文を用いてフレーズごとの翻訳確率である翻訳モデルや目的言語らしさである言語モデルを学習する. そして,文が入力された時に翻訳モデルと言語モデルの組合せから確率が最大となる文を出力文として得る. 統計翻訳において,対訳文数が多ければ多いほど出力文の翻訳精度は高くなることが知られている. しかし,利用できる対訳文数には限りがある.
この問題に対し,対訳コーパスに対訳句コーパスを追加する手法の研究が行われ, 自動評価結果が向上したとの報告がある. この研究はセルビア語英語間,スペイン語英語間[1]そしてブルトン語フランス語[2]の各翻訳において行われている.
そこで,本研究では同様の手法を日本語英語間の翻訳において行う. 辞書のデータから抽出した対訳句コーパスを用いる. 日英対訳コーパスを用いて言語モデルの学習する. 日英対訳コーパスに対訳句コーパスを加えて翻訳モデルを学習し, 統計翻訳を行う方法を提案手法とし,翻訳精度の調査を行う.
日英対訳コーパスは単文コーパスと重文複文コーパス[3]を用いる. 対訳句コーパスとして鳥バンク[4] と英辞郎[5] を用いる.
その結果,自動評価結果と人手評価結果のどちらにおいても提案手法はベースラインよりも翻訳精度が向上した. 日本語英語間の統計翻訳において,対訳句コーパスを用いた提案手法は有効であると確認できた.