next up previous contents
次へ: 統計翻訳システム 上へ: thesis_template2 戻る: 表一覧   目次

はじめに

近年,機械翻訳の分野で原言語から目的言語に翻訳する統計翻訳が注目されている. 統計翻訳は対訳文を用いてフレーズごとの翻訳確率である翻訳モデルや目的言語らしさである言語モデルを学習する. そして,文が入力された時に翻訳モデルと言語モデルの組合せから確率が最大となる文を出力文として得る. 統計翻訳において,対訳文数が多ければ多いほど出力文の翻訳精度は高くなることが知られている. しかし,利用できる対訳文数には限りがある.

この問題に対し,対訳コーパスに対訳句コーパスを追加し,自動評価結果が向上したとの報告がある. この研究はセルビア語英語間,スペイン語英語間[1]そしてブルトン語フランス語[2]の各翻訳において行われている.

Maja Popovi$\acute{c}$らはセルビア語英語間,スペイン語英語間において,対訳コーパスに対訳句コーパスを追加し統計翻訳を行った[1]. セルビア語英語間の翻訳で,対訳句コーパスとして351対訳句対使用した. セルビア語英語方向の翻訳において,対訳コーパス0.2kに対訳句コーパスを追加することによって, BLEUスコアで0.020の向上を報告した. また,スペイン語英語間の翻訳で,対訳句コーパスとして52,566対訳句対使用した. スペイン語英語方向の翻訳において,対訳コーパス1kに対訳句コーパスを追加することによって,BLEUスコアで0.06の向上を報告した.

Francis M Tyersはブルトン語フランス語間の翻訳において対訳句コーパスを用いた[2]. その結果,対訳コーパス27,987文に語彙変化しない対訳句コーパスとして7k対訳句対を追加することによって,BLEUスコアで0.01の向上を報告した. また,対訳コーパスに語彙変化させた対訳句コーパスとして43k対訳句対を追加することによってBLEUスコアで0.07の向上を報告した.

そこで,本研究では日本語英語間の翻訳において,同様の手法を用いる. 辞書のデータから抽出した対訳句コーパスを用いる. 日英対訳コーパスを用いて言語モデルの学習する. 日英対訳コーパスに対訳句コーパスを加えて翻訳モデルを学習し, 統計翻訳を行う方法を提案手法とし,翻訳精度の調査を行う. 日英対訳コーパスとして単文コーパスと重文複文コーパス[3]を用いる. 対訳句コーパスとして鳥バンク[4] と英辞郎[5] を用いる.

その結果,自動評価結果と人手評価結果のどちらにおいても提案手法はベースラインよりも翻訳精度が向上した. 日本語英語間の統計翻訳において,対訳句コーパスを用いた提案手法は有効であると確認できた.

本論文の構成は以下の通りである. まず,[*]章で統計翻訳システムの概要を示し,各モデルの学習,評価方法について述べる. [*]章では,本研究の提案手法について述べる. [*]章では,実験に用いるデータやツールといった実験環境について述べる. [*]章では,提案手法の結果を示す. そして,[*]章で考察を行い,最後に[*]章で結論を述べ,まとめる.



平成25年2月12日