next up previous contents
次へ: 句に基づく文パターン辞書の作成 上へ: フレーズ辞書の作成 戻る: フレーズ対数確率の計算   目次

対訳句の選別

手順4.2.4で作成する句に基づく文パターンの数を抑制するため, 抽出した対訳句の選別を行う. 対訳句の選別には2つの手法を用いる. 以下に手順を示す.
  1. フレーズ対数確率への閾値設定 設定した閾値以上のフレーズ対数確率を持つ句のみを本研究では使用する. 閾値の詳細はで説明する.
  2. 対訳句の単語数の差による抽出 英語フレーズと日本語フレーズの単語数の絶対値を計算する. 英語フレーズの単語数を基準とし, 対応する日本語フレーズ数が±5以内のフレーズのみを抽出する. 例えば英語フレーズが2単語, 日本語フレーズが3単語であれば抽出するが, 英語フレーズが2単語, 日本語フレーズが8単語であれば抽出しない. 図[*]に単語数の差による抽出方法を示す.

    図: 単語数の差による対訳句の抽出
    52#52



平成27年3月19日