次へ: 実験方法
上へ: パターンの対応
戻る: 文番号の比較
  目次
文番号の一致数が多くても一致している割合が低ければ、対訳パターンではない
と考えられる。しかし、前節の方法では、一致数の多さのみを考慮しているため、
一致している割合が低くても対訳パターンとなってしまう。そこで、効率良く対
訳パターンを抽出するため、対応率を定義する。そして、対応率が高いパターン
同士を対訳パターンとする。
対応率(%) = 一致数 / 抽出回数
以下に例を示す。例6では、パターンAとパターンXが対訳で、パターンBとパター
ンYが対訳となっている。そして、原文データからパターンAが10回、パターンB
が4回抽出されたとする。
(例6)対訳パターンの例
A : X = 一致数3
B : Y = 一致数3
対応率は以下のようになる。
A : X = 対応率30%(3 / 10)
B : Y = 対応率75%(3 / 4)
→ 対応率の高いパターンBとパターンYを対訳パターンとして抽出する。
前節の方法では、一致数の多さから、対応率の低いパターンAとパターンXも対
訳パターンとして抽出される。
例6のように、対応率を求め、対応率が高いパターン同士を対訳パターンとす
ることで、効率良く対訳パターンを抽出することができると考えられる。
また、例5のように、複数の候補が考えられる場合には、対応率が一番高いパ
ターン同士を対訳パターンとする。
対訳パターンを抽出した後、本当に対訳パターンとなっているかの評価を人手
で行うため、対訳パターンである可能性が高いものだけを抽出する必要がある。
平成14年4月17日