next up previous contents
Next: 句に基づく文パターン辞書の作成 Up: 提案手法の概要 Previous: 提案手法の概要   目次

Pattern Based SMTの問題点

Pattern Based SMTの出力文には,人手評価の低い出力文がある.その原因として,句に基づく対訳文パターン辞書の確率値の計算方法が挙げられる.対訳文パターンの確率値の計算は,パターン内の単語におけるGIZA++の値を利用している.しかし,パターン内の単語におけるGIZA++の値の中には,明らかに妥当ではない対応を取っているものがある.そのため,対訳文パターン対数確率の値に信用性がないと考える.
明らかに妥当ではない対応を取っている出力文の例を表[*]に示す.


表: 明らかに妥当ではない対応を取っている出力文の例
入力文 最終 的 に 条件 面 で 合意 を み た 。
参照文 The terms were finally agreed to .
日本語文パターン N02 に N00 N04 で N03 を N01 た 。
英語文パターン I N01 a N03 to N02 by N00 N04 .
日本語文パターンの原文 彼女 に 小包 郵便 で 本 を 送っ た 。
英語文パターンの原文 I sent a book to her by parcel post .
出力文 I read a agreement to Ultimately by terms sides .
「を」と「I」の対応 -8.745
「た」と「I」の対応 -3.822

Pattern Based SMTでは,対訳文パターンの確率値の計算に字面を利用している.表[*]の例では,字面である「を」が「I」になる確率が一番高いので,-8.745が選択されている.しかし,「を」と「I」という対応は,人が見て明らかに妥当ではない対応であることがわかる.


next up previous contents
Next: 句に基づく文パターン辞書の作成 Up: 提案手法の概要 Previous: 提案手法の概要   目次
s122036 2016-03-17