Next: 定型的言い回しの抽出方法 Up: No Title Previous: まえがき

従来の研究の問題点

従来、辞書に登録する定型的な言い回しは人手で抽出されていたが、人手ではあまりにもその負担が大きすぎるため、計算機によって自動的に抽出する方法が考えられてきた。

従来、[1]の方法を用いた以下のようなN-gram統計を応用した言い回しの抽出法が提案されている。単語の置き換えを行なう方法 [3] や、単語単位に変換した原文データに対して、N-gramを適用する方法[4] 等が存在する。

しかし、定型的な言い回し抽出には膨大なデータが必要となり、それとともにこれらの手法では不要な表現が多数混在してしまうという問題点があった。

単文、重文、名詞句の文型の種類毎に適切な置き換えを行なうことで、不要な表現を削除し、N-gram出力結果に対しても、品詞情報を用いて不要な表現の削除や相互情報量を用いて言い回しをしぼり込むなどの方法[2] が提案されているが、重文・複文に的を絞った置き換えではないため、まだ不要な表現が多数でてしまう。さらに重文・複文の表現抽出で使用されている離散共起抽出方法は組み合わせ表現数が増えるにつれ、その計算量が膨大に増えてしまうという問題点がある。そのため大規模コーパスからの重文複文の定型的言い回しはまだ抽出されていない。

そこで、本研究では重文・複文に的を絞った適切な置換えを施し、従来の離散共起だけでなく、連鎖共起抽出方法の両方を使って、大規模コーパスから重文複文の定型的言い回しを抽出した。

2000-04-09