next up previous contents
次へ: 翻訳システムのカバー率と翻訳精度の関係 上へ: 考察 戻る: 組合せの問題   目次


単文と重文複文の翻訳精度の傾向の違い

[*]と表[*]において,単文の翻訳は併用し たフレーズテーブルのフレーズ対の数が多いほど,翻訳精度が高くなる傾向があっ た.しかし.重文複文の翻訳は,フレーズ対の数とは無関係に,併用したフレーズテー ブルの学習データの日本語文が文節区切りであった場合,翻訳精度が高い傾向が あった.この原因について,次のように考えている.

日英統計翻訳は日本語をフレーズ対を用いて英語に変換し,並び替えにより英語 文に翻訳する.単文は文法構造が単純であり,短文が多いため,翻訳に用いるフ レーズ対が少なく,並び替えの候補は少ない.そのため,日本語フレーズ の長さとは無関係に,フレーズ対の数に比例して翻訳精度が向上する傾向があった.

しかし,重文複文は文法構造が複雑であり,長文が多いため,翻訳に用いるフレー ズ対が多く,並び替えの候補が膨大になる.さらも単文と比較して,日本語と英 語の文法構造の差の影響が大きい.「日本語文を単語区切り,英語文をフレーズ 区切りとした」学習データから生成されたフレーズテーブルは日本語フレーズは 短いため,翻訳に用いるフレーズ対を減らす効果が小さく,文法構造の違いも補 えない.そのため,翻訳精度の向上は小さかった.しかし,「日本語文を文節区 切りとした」学習データから生成されたフレーズテーブルは日本語フレーズが長 いため,翻訳に用いるフレーズ対を減らす効果が大きい.また,日本語と英語の 文法構造の差を補うこともできる.そのため,翻訳精度の向上が大きかった.

このことから,単文の翻訳には単純にフレーズ対を増やすことが効果的であり, 重文複文の翻訳には,長いフレーズ対を増やすことが効果的であると考えている.



平成22年2月17日