Next: Bibliography Up: No Title Previous: パターン抽出についての考察

まとめ

本研究では、文節間の係り受け関係を利用した類似文検索アルゴリズムを提案した。日本文の持つ係り受けの特徴を利用し、係り受け関係を構成する文節をペアで扱い、入力文と一致する文節ペア数が最も多く一致する文を検索する。最も多く一致している文を検索するため、入力文と同一の係り受け関係だけでなく、部分的に一致するような類似文も検索できる。また、係り受け関係を考慮することで、抽出された候補文を大幅に削減して類似文を検索することができた。

本手法では係り受け関係の一致する特定のパターンが得られるため、類似文検索のほかに、新聞記事などのパターン抽出にも応用できる。 N-gram統計と同様に表現のパターンを抽出でき、連続した文節が係り受けで結ばれた連鎖型表現だけでなく、離れた文節間で係り受けを構成する離散型表現も抽出できる。特に離散型表現の抽出においては、 N-gramよりも抽出能力が高いといえる。

今後の課題として、用途に応じた文節の置き換え、英語の対訳を利用した用例翻訳への応用、 N-gram統計との比較などが挙げられる。

2002-03-06