本研究では、文節間の係り受け関係を利用した 類似文検索アルゴリズムを提案した。 日本文の持つ係り受けの特徴を利用し、 係り受け関係を構成する文節をペアで扱い、 入力文と一致する文節ペア数が最も多く一致する文を 検索する。最も多く一致している文を検索するため、 入力文と同一の係り受け関係だけでなく、部分的に一致するような 類似文も検索できる。 また、係り受け関係を考慮することで、 抽出された候補文を大幅に削減して 類似文を検索することができた。
本手法では係り受け関係の一致する特定の パターンが得られるため、類似文検索のほかに、 新聞記事などのパターン抽出にも応用できる。 N-gram統計と同様に 表現のパターンを抽出でき、連続した文節が係り受けで 結ばれた連鎖型表現だけでなく、 離れた文節間で係り受けを構成する離散型表現も抽出できる。 特に離散型表現の抽出においては、 N-gramよりも抽出能力が高いといえる。
今後の課題として、用途に応じた文節の置き換え、 英語の対訳を利用した用例翻訳への応用、 N-gram統計との比較などが挙げられる。