next up previous contents
次へ: 対応率の算出 上へ: 本手法の手順 戻る: 本手法の手順   目次

プログラムの流れ

本研究では、原文データとして対訳コーパスを使用する。日本文と英文に分けて 実験を行うため、最初に対訳コーパスから日本文と英文に分ける必要がある。
 例7のような原文データの場合を考える。

\includegraphics{fig7.eps}

そして、名詞を$ N $に置き換えたデータから、パターンの抽出を行う。対応率 を求めるときに文番号を比較するので、パターンを含む文の文番号の検索も行う。
 ここで、パターンの抽出は、連鎖共起表現$ N $-gram統計処理方法を用いて、 強抑制型で行った。強抑制で行うことにより、まとまりのない断片的な表現が削 除できる。
 例7では、例8のようなパターンが抽出される。

(例8)例7から抽出されたパターン
  日本文側
$ N $$ N $へ行く。 ・・・ 抽出回数2 (文(1)、(2)から抽出)
$ N $は寝る。 ・・・ 抽出回数2 (文(3)、(4)から抽出)
  英文側
$ N $ go to $ N $. ・・・ 抽出回数2 (文(1)、(2)から抽出)
$ N $ sleep. ・・・ 抽出回数2 (文(3)、(4)から抽出)



平成14年4月17日