近年、自然言語処理の分野では実際の自然言語で記述された 大規模なコーパスや用例の重要性が認識されるようになり、 その分析のために、コーパスから特定の情報を抽出する技術 が求められるようになった。 特に、機械翻訳の分野では翻訳精度を向上させるため、用例を利用する 方法が提案されている。用例翻訳に利用される用例検索システムでは、 大規模な対訳コーパスから、構文的、意味的に類似した文章を高速で精度良く 検索する類似文検索技術の確立が必要とされる。 これに対して、従来提案されている手法に キーワード検索などがある。 キーワード検索は、あらかじめいくつかのキーワードを抽出または付与しておき、 それらと入力文、入力単語との照合によって検索を行う。 テキスト全体との照合をする必要がないので、大量のテキストからの 高速な内容検索が期待できる。
これらは、広く利用されているが、 キーワード検索は、文がキーワードの集合という 形に変えられるため、文の一致が保証されず、 多くの不適切な用例を検索してしまうという 問題が生じる。 この問題を解決するため、係り受け関係を利用する 方法が提案されている。 係り受け関係の一致をとることで、キーワード単位では 検索されるような多くの不適切な用例を 絞り込むことができる。
係り受けを用いた検索手法が論文[1] で提案されている。 [1]はDB(データベース)から指定した係り受け関係の全てを含む 文を検索する手法である。 指定した係り受け関係の全てを含むため、入力文と 同一の係り受け関係しか抽出することができない。
そこで本研究では、 入力文と一致する係り受け関係を最も多く 含む文を検索の対象とする。 より多く一致を含む文を抽出するため、 入力文と係り受けが全て一致する文だけでなく、 部分的に一致するような類似文も抽出することができる。 また、係り受けの制約を用いることで、係り受け関係の一致する 特定のパターンを抽出することができるので、 言語データのパターン抽出への応用も期待できる。
本論文では、(1)係り受け関係を利用した類似文検索アルゴリズム の提案、(2)提案した手法の評価実験、 (3)新聞記事のパターン抽出への応用の3つについて述べる。