はじめに

機械翻訳において, 相対的意味論に基づく変換主導型統計機械翻訳 TDSMTが提案されている. TDSMTは変換テーブルを用いて, 学習文対を変換し, 出力文を作成する. 変換テーブルは 「AB」ならば「CDである」というA,B,C,Dの相対的関係に基づいて定義されたテーブルである.ここでABは単語である.また,CDは単語もしくは句である. 変換テーブルは学習文対(パラレルコーパス)から自動作成する. 作成にはIBM Model 1[3], パターンを利用する. TDSMTは学習文対1対から複数の変換テーブルを作成する. また, 出力の導出過程の解析もニューラル機械翻訳と比べ, 容易である. しかし,TDSMTにおいて誤った変換テーブルを作成してしまうという問題点が存在する.

そこで,誤った変換テーブルを削除するために変換テーブルを生成した後に,枝刈りを行う.従来行われている枝刈りの手法として,ABCDの対訳単語確率を用いた枝刈りがある.しかし,枝刈りの精度は未だ不十分である.

TDSMTは学習文対の単語を変換テーブルを利用し, 置き換えることによって出力文を得る. つまり, 変換テーブルはAC, そして BDが置き換え可能な関係が想定される. そこで, 本研究では従来手法で行う枝刈りに加えて,ACBDの類似度を用いて枝刈りを行うことを提案する. 本研究において,類似度とは注目単語の前後環境がどれだけ一致しているかと定義する. 提案手法を用いることで変換テーブルの精度を向上できると考える.