次へ: 句に基づく文パターン辞書の作成
上へ: フレーズ辞書の作成
戻る: フレーズ対数確率の計算
目次
手順4.2.4で作成する句に基づく文パターンの数を抑制するため, 抽出した対訳句の選別を行う. 対訳句の選別には2つの手法を用いる. 以下に手順を示す.
- フレーズ対数確率への閾値設定
設定した閾値以上のフレーズ対数確率を持つ句のみを本研究では使用する. 閾値の詳細はで説明する.
- 対訳句の単語数の差による抽出
英語フレーズと日本語フレーズの単語数の絶対値を計算する. 英語フレーズの単語数を基準とし, 対応する日本語フレーズ数が±5以内のフレーズのみを抽出する.
例えば英語フレーズが2単語, 日本語フレーズが3単語であれば抽出するが, 英語フレーズが2単語, 日本語フレーズが8単語であれば抽出しない.
図に単語数の差による抽出方法を示す.
平成27年3月19日