概要

相対的意味論に基づく変換主導型統計機械翻訳 TDSMT[1](Transfer Driven Statistical Machine Translation : 以下TDSMTと記述する)が提案されている. TDSMTでは変換テーブルを用いて翻訳を行う. 変換テーブルは学習文対から自動作成する. 学習文対は英語文と日本語文の対である. 変換テーブルとは「ABならばCDである」というA,B,C,Dの相対性に基づいて関係を定義したテーブルである. ここでABは単語である.また,CDは単語もしくは句である. しかし, TDSMTは自動で変換テーブルを作成するため, 誤った変換テーブルを作成する場合がある. そこで,誤った変換テーブルを削除するために変換テーブルを生成した後に,枝刈りを行う. 従来行われている枝刈りの手法として,ABCDの対訳単語確率を用いた枝刈りがある. しかし,枝刈りの精度は未だ不十分である.

本研究では,従来手法で行う枝刈りに加えて,ACBDの類似度を用いて枝刈りを行うことを提案する.

実験では, 従来手法と提案手法を用いて作成した変換テーブルを枝刈りした. そして, 従来手法と提案手法の誤り率を比較した. 実験の結果, 提案手法によって変換テーブルの精度が大幅に向上した.