next up previous contents
Next: 従来の研究の問題点 Up: No Title Previous: List of Tables

まえがき

機械翻訳などの自然言語処理において、使用頻度の高い表現や定型的な言い回 しなどを収集した日本語共起表現辞書が必要とされている。従来、辞書 に登録する表現は人手で抽出されていたが、計算機によって自動的に抽出する方 法が考えられてきた。 しかしその手法では 膨大なデータが必要となり、不要な表現が多数混在してしまうという問題点があっ た。

従来の方法として、[1]の方法が提案されている。こ の方法は大量の言語データから、使用頻度の高い表現および表現の組を自動的 に発見し集計する方法である。 この方法で抽出され た文字列を組み合わせて、文中の離れた位置に共起する文字列の組(離散型共 起表現)を抽出し、頻度を求める方法も[1]で提案されている。

単文、重文、名詞句の文型の種 類毎に適切な置き換えを行なうことによって、効率よく目的とする表現を抽出 する方法[2]が提案されているが、重文・複文に的を絞った置き換えで はないため、まだ多数の不要な表現がでている。さらに重文・複文の表現抽出で 使用されている 離散共起抽出方法は組 み合わせ表現数が増えるにつれ、その計算量が膨大に増えてしまうという問題点 がある。そのため 大規模コーパスにからの重文複文の定型的言い回しはまだ抽出は行われていない。

そこで、本研究では重文・複文に的を絞った適切な置換えを施し、従来の 離散共起だけでなく、連鎖共起抽出方 法を使用して大規模コーパスから重文複文の定型的言い回しを抽出した。

以下、2章ではN-gram統計の問題点について、3章ではN-gram統計処理によ る共起表現について、4章で置き換え処理について、そして 5章では実験結果と考察について、最後に6章で結論を述べる。




2000-04-09