そして、名詞をに置き換えたデータから、パターンの抽出を行う。対応率
を求めるときに文番号を比較するので、パターンを含む文の文番号の検索も行う。
ここで、パターンの抽出は、連鎖共起表現-gram統計処理方法を用いて、
強抑制型で行った。強抑制で行うことにより、まとまりのない断片的な表現が削
除できる。
例7では、例8のようなパターンが抽出される。
(例8)例7から抽出されたパターン
日本文側
・はへ行く。 ・・・ 抽出回数2 (文(1)、(2)から抽出)
・は寝る。 ・・・ 抽出回数2 (文(3)、(4)から抽出)
英文側
・ go to . ・・・ 抽出回数2 (文(1)、(2)から抽出)
・ sleep. ・・・ 抽出回数2 (文(3)、(4)から抽出)