next up previous contents
次へ: 統計翻訳システム 上へ: 11 戻る: 図一覧   目次

はじめに

現在,機械翻訳システムの分野において,対訳データから自動的に翻訳規則を獲得 し,翻訳を行う統計翻訳が注目されている. 統計翻訳では,獲得した翻訳規則を翻訳モデルと言語モデルで管理する. 言語モデルは,単語列,文字列に対して,それらが起こる確率を与えるモデルで ある. 翻訳モデルは,単語列から単語列への翻訳を確率的に行うためのモデルである, 翻訳モデルには,大きくわけて語に基づく翻訳モデルと 句に基づく翻訳モデルがある.初期の統計翻訳は,語に基づく翻訳モデルを用い ていた.語に基づく翻訳モデルでは,単語の対応作成時に,対応が無い単語には NULLを対応させる. しかし,双方向の対応を調べる時,NULLに対する翻訳候補には,全ての単語が挙 げられる. このことが,語に基づく翻訳モデルにおいて翻訳精度が低下する原因の一つになっ ていた. そこで,語に基づく翻訳モデルと比べて,訳語の選択能力,及び,局所 的な語の並べ替え能力が高い,句に基づく翻訳モデルが現在の主流となっている.

句に基づく翻訳モデルは,フレーズテーブルで管理される. 句に基づく翻訳モデルは,句の対応をとるので,語に基づくモデルで用いていた, NULLは使用しない. しかし,フレーズテーブルのフレーズ対は,生成段階において短いフレー ズ対に分割されるため,長いフレーズ対を多く含むことは困難である. また,自動作成されるフレーズテーブルは作成されるフレーズ数が多いため,カバー 率は高いが,フレーズ対の信頼性は低い.一方,人手で作成する場合は翻訳対の信頼性 は高いがカバー率は低い. そこで,それぞれの長所を生かすために,プログラムで自動作成したフレーズ対に 人手で作成された翻訳対を追加することを考えた.

本研究では,信頼性が高く,長いフレーズ対をフレーズテー ブルに追加するために,日英重文複文文型パターン辞書[1]の対訳文対から 人手で作成された翻訳対を,プログラムで自動作成したフレーズテーブルに追加 し, 単文と重文複文における,日英翻訳及び英日翻訳の精度評価を行う. 人手で作成された約13万の翻訳対に翻訳確率を与え,プログラムで自動作成したフ レーズテーブルに追加した結果,BLEUスコアの値が,日英翻訳の単文は0.9$%$, 重文複文では0.8$%$向上した.また,英日翻訳では単文は1$%$,重文複文は 2.5$%$向上し,人手で作成された翻訳対を追加した提案手法は有効 であることが示された.

2章で,統計翻訳システムの概要を示し,各部分の説明を行う. 3章で,実験環境の説明を行う. 4章で,人手で作成された翻訳対を,プログラム作成したフレーズテーブルに,追加する 手順の説明を行う. 5章で,提案手法を用いた時の翻訳実験の結果を示す. 6章で,翻訳対の翻訳確率の重みを最適化した時の提案手法の効果を示す. 7章で,考察を示す. 最後に8章で,結論を述べ,まとめる.



平成21年3月17日