next up previous contents
Next: 提案手法:未知語を出力可能にしたTDSMT Up: 従来手法:相対的意味論を利用した変換主導型統計機械翻訳(TDSMT) Previous: TDSMTの概要   Contents


TDSMTの問題

TDSMTの最も大きな問題点はカバー率が低いことである.TDSMTでは変換テーブルを利用して,入力文を変換し,対訳文の日本語側と一致しなければ翻訳できない.さらに,同じ変換テーブルの「83#83」の部分が対訳文の英語側に存在する必要がある.このように,翻訳可能な条件を非常に厳格にすることで文法性を確保しているが,一方で,カバー率を低下させる結果となっている.

2.1に具体的な例を示す.

Figure 2.1: カバー率が低下する要因
122#122

2.1において,変換テーブル1では対訳文の日本語側の「医者」と入力文の「患者」を変換できないため,適用できない.また,変換テーブル2では,対訳文の「医者」と入力文の「患者」を変換することが可能である.しかし,変換テーブルの「AB」の部分が「医者 が surgeon」となっている.しかし,対訳文の日本語側に「医者」という単語は存在するが,対訳文の英語側では「surgeon」という単語は存在しない.このため,変換テーブル2は適用できない.

このように,変換テーブルを適用するには,対訳文の日本語側と入力文において,変換テーブルのACが存在し,対訳文の日本語側と英語側において,変換テーブルのABが存在する必要がある.このような条件で入力文を変換して,対訳文と一致させるには大量の変換テーブルを用意する必要がある.

また,対訳文に存在しない語や対訳文中の出現頻度が少なく学習が困難が語(以下,未知語)が入力文に一つでも存在した場合,この入力文は翻訳不可能となる.



Hiroto Yasuba 2019-05-08