next up previous
次へ: 統計翻訳システム 上へ: main 戻る: 概要

はじめに

現在,機械翻訳システムの分野において,対訳データから自動的に翻訳モデル と言語モデルを獲得し統計的に翻訳を行う,統計翻訳が注目されている.翻訳 モデルは,原言語の単語列から目的言語の単語列への翻訳を確率的に表現する モデルである.言語モデルは,目的言語の単語列に対して,それらが起こる確 率を与えるモデルである.翻訳モデルには,大きくわけて語に基づく翻訳モデ ルと句に基づく翻訳モデルがある.初期の統計翻訳は,語に基づく翻訳モデル であった.語に基づく翻訳モデルでは,原言語の単語から目的言語の単語の対 応表を作成する.対応する単語が無い場合はNULL MODELに対応させる [1].しかし,翻訳文を生成する時,NULL MODELに対して,全ての単語 の出現を仮定する必要がある.これが翻訳精度が低下する原因の一つになって いた.そのため現在では句に基づく翻訳モデルが主流になっている [2].

句に基づく翻訳モデルは,原言語の単語列から目的言語の単語列の翻訳に対し て確率を付与する.また,NULL MODEL は使用しない.そして,原言語の単語列 から目的言語の単語列への翻訳を,フレーズテーブルで管理する.しかし,フ レーズテーブルのフレーズ対はヒューリスティクを用いて自動作成されるた め,一般にカバー率は高いが信頼性は低いと考えられる.また,フレーズテー ブルのフレーズ対は,確率値の信頼性を高めるため,短いフレーズ対に分割さ れる.そのため,長いフレーズ対は少ない.

ところで,日英翻訳では,過去に手作業で作成した日本語の単語列から英語の 単語列への翻訳対が大量に作成されている.この翻訳対の信頼性は高いと考え られる.しかし自動作成されたフレーズ対と比較すると,カバー率は低い.そ こで,本研究では,それぞれの長所を生かすために,プログラムで自動作成し たフレーズ対に手作業で作成された翻訳対を追加することで翻訳精度の向上を 目指した.

本研究では,手作業で作成した原言語の単語列から目的言語の単語列への翻訳 対を,自動的に作成したフレーズテーブルに追加する.この追加されたフレー ズテーブルを利用して日英翻訳の精度向上を試みる.実験では,日英重複文文 型パターン辞書[3]の対訳文対から得られた翻訳対を利用する.手作業 で作成された約13万の翻訳対に翻訳確率を与え,プログラムで自動作成したフ レーズテーブルに追加する.この結果,BLEUスコアが,単文では12.5%から 13.4%に0.9%向上した.また重複文では7.7%から8.5%に0.8%向上した.ま た得られた英文100文に対し,人間による対比較実験を行ったところ,単文で は,従来法が5文であるのに対し提案法では23文,また重複文では,従来法が 15文であるのに対し提案法では35文,翻訳精度が良いと判断された.

これらの結果から,自動作成されたフレーズテーブルに手作業で作成された翻 訳対を追加する,提案手法の有効性が示された.



Jin'ichi Murakami 平成22年9月2日