従来、辞書 に登録する定型的な言い回しは人手で抽出されていたが、 人手ではあまりにもその負担が大きすぎるため、 計算機によって自動的に抽出する方法が考えられてきた。
従来、[1]の方法を用いた以下のようなN-gram統計を応用した言 い回しの抽出法が提案されている。単語の置き換えを行なう方法 [3] や、単語単位に変換した原文データに対して、N-gramを適用 する方法[4] 等が存在する。
しかし、定型的な言い回し抽出には膨大なデータが必要となり、それとともに これらの手法では 不要な表現が多数混在してしまうという問題点があった。
単文、重文、名詞句の文型の種類毎に適切な置き換えを行なうことで、不要な表 現を削除し、N-gram出力結果に対しても、品詞情報を用いて不要な表現の削除 や相互情報量を用いて言い回しをしぼり込むなどの方法[2] が提案されているが、重文・複文に的を絞った置き換えではないた め、まだ不要な表現が多数でてしまう。さらに重文・複文の表現抽出で 使用されている 離散共起抽出方法は組 み合わせ表現数が増えるにつれ、その計算量が膨大に増えてしまうという問題点 がある。そのため 大規模コーパスからの重文複文の定型的言い回しはまだ抽出されていない。
そこで、本研究では重文・複文に的を絞った適切な置換えを施し、従来の 離散共起だけでなく、連鎖共起抽出方 法の両方を使って、大規模コーパスから重文複文の定型的言い回しを抽出した。