ルールテーブル作成法(ルールの抽出)

次へ: ルールテーブル作成法(ルールの確率推定) 上へ: 翻訳モデル 戻る: 翻訳モデル目次

ルールテーブル作成法(ルールの抽出)

階層型統計翻訳は句に基づく統計翻訳を階層に拡張したものであり，ヒューリスティクスによる推定はほぼ階層でない句に基づく統計翻訳と同じである．2.3.1節では句に基づく統計翻訳と異なる点を説明する．

まず，ルールの抽出について述べる．階層型統計翻訳においても，学習データに表われるルールを全て列挙することは現実的でない．そこでルールを全て列挙することは行わず，ルールとして正しそうなもののみを抽出することになる．まず，階層でないフレーズモデルにおいてフレーズペアを抽出する．これで得られるフレーズペアの集合には，フレーズペアとして同じ単語アラインメントを持っているものが複数あるため，フレーズペアとして最小であるものを選ぶ．これによって得られたフレーズペア集合を初期フレーズペア(initial phrasepair) 集合と呼ぶ．初期フレーズペアが得られると，以下の定義に従ってルールを得る．

初期フレーズペアはルールである
あるルール 95#95 と別のルール 96#96 があり， 97#97 で表わされるなら， 98#98 はルールである

この抽出を各文のフレーズについて行い，ルールの集合を得る．

root 平成24年3月22日