next up previous contents
次へ: 実験方法 上へ: パターンの対応 戻る: 文番号の比較   目次

対応率

文番号の一致数が多くても一致している割合が低ければ、対訳パターンではない と考えられる。しかし、前節の方法では、一致数の多さのみを考慮しているため、 一致している割合が低くても対訳パターンとなってしまう。そこで、効率良く対 訳パターンを抽出するため、対応率を定義する。そして、対応率が高いパターン 同士を対訳パターンとする。
   対応率(%) = 一致数 / 抽出回数
 以下に例を示す。例6では、パターンAとパターンXが対訳で、パターンBとパター ンYが対訳となっている。そして、原文データからパターンAが10回、パターンB が4回抽出されたとする。

(例6)対訳パターンの例
  A : X = 一致数3
  B : Y = 一致数3
対応率は以下のようになる。
  A : X = 対応率30%(3 / 10)
  B : Y = 対応率75%(3 / 4)
→ 対応率の高いパターンBとパターンYを対訳パターンとして抽出する。

 前節の方法では、一致数の多さから、対応率の低いパターンAとパターンXも対 訳パターンとして抽出される。
 例6のように、対応率を求め、対応率が高いパターン同士を対訳パターンとす ることで、効率良く対訳パターンを抽出することができると考えられる。
 また、例5のように、複数の候補が考えられる場合には、対応率が一番高いパ ターン同士を対訳パターンとする。
 対訳パターンを抽出した後、本当に対訳パターンとなっているかの評価を人手 で行うため、対訳パターンである可能性が高いものだけを抽出する必要がある。



平成14年4月17日