一方翻訳システムとして“単語に基づく統計翻訳" がある.単語に基づく統計翻訳は,学習データとして対訳文を与えるだけで翻訳ができる.このため,翻訳にかかるコストが低い.さらに,対訳文から単語辞書と単語翻訳確率を自動的に得ることが可能である.
江木らは,パターンに基づく統計翻訳を考案した.パターンに基づく統計翻訳は,統計的手法を用いて,対訳句と句レベル文パターンを自動作成して翻訳を行う.しかし,この手法は翻訳精度が低い.原因の一つとして,不適切な対訳句が翻訳時に選択されていることが挙げられる.また,翻訳時の対訳句の選択にはフレーズ確率を使用している.
本研究では,翻訳精度の向上を目的とし,翻訳時の対訳句の選択における二つの手法を提案する. 一つ目は,フレーズ確率の総積を使用する手法である. 二つ目は,Dice係数と類似度の積を使用する手法である. この二つの手法とフレーズ確率を対訳句の選択に使用する翻訳(以下,従来手法)で比較実験を行った.
出力文の精度を比較評価した結果、フレーズ確率の総積を使用する手法の出力文が最も精度が良いことがわかった. しかし従来手法と大きな差がないことも分かった.