従来の方法では、置き換えを行なってはいるが、置き換えが名詞のみに限られ ていた。そのため、名詞については文字が違うことによって、別の表現になっ ているものがまとめられ、表現の抽出の種類は大幅に抑えられる結果となって いる。しかし、名詞のみの置き換えでは、抽出される表現には、まだ多くの不 要な文字列が混在するため、その後の人手の作業は容易ではない。
そこで本研究では、原文の段階で抽出すべき、単文、重文、名詞句の文型の種 類毎に適切な置き換えを行なうことによって、効率よく目的とする表現を抽出 する。そして、N-gram統計の出力結果に対しても品詞情報を用いて、必要の ない表現の削除も行う。
文型の種類毎に適切な置き換えを行なうことによって、効率よく目的とする表 現を抽出する。そのため、各文型の種類に閉じた言い回しの抽出が出来るため 出力結果も抑えられる形となる。かつ、辞書に見出し語を登録する際、文型ご とに登録することができ利用しやすい。
品詞情報は、出力される結果から必要な文の構成をしているものだけを抽出す るために用いる。置き換えを行なったことで、表現パターンの種類数は減少し ているがまだ多い。そのため、品詞情報を用いて、表現が求める構成と異なる ものは削除し、求める構成の表現のみを選択する。