next up previous contents
Next: Contents Up: No Title Previous: No Title

概要

機械翻訳などの自然言語処理において、使用頻度の高い表現や定型的な言い回 しなどを収集した日本語共起表現辞書が必要とされている。従来、辞書 に登録する表現は人手で抽出されていたが、膨大なデータが必要となるため、 計算機によって自動的に抽出する方法が考えられてきた。 現在、重文複文においてもN-gram統計処理によって定型的言い回しを抽出する 方法が提案されている。しかし多数の不要な文字列が混在するため、その後の 人手の作業は容易ではなく、計算量が膨大なため大規模コーパスへの適用は 行われていない。

そこで本研究では、原文の段階で重文・複文に的を絞った適切な単語置き換えを 行い、文節を縮退することで、効率よく重文複文に関係する表現を発見した。 また、従来の離散共起表現だけでなく、連鎖共起共起表現方法によっても抽出した。

上記の手法をサンプルテストとして毎日新聞 95年度の一面記事 1万文に対して 適用し、含有率を計算した。 大規模なコーパスとして毎日新聞 95年度の一年分160万文に適用し、 重文複文における定型的言い回しを抽出した。

本手法により、その結果、重文複文に的をしぼった置き換えをすることで 効率よく抽出されることが確認された。 連鎖共起、離散共起表現N-gram統計処理方法の両方で大規模な コーパスから定型的言い回しを抽出することができた。




2000-04-09