Next: 係り受け関係を利用した類似文検索アルゴリズム Up: No Title Previous: List of Tables

まえがき

近年、自然言語処理の分野では実際の自然言語で記述された大規模なコーパスや用例の重要性が認識されるようになり、その分析のために、コーパスから特定の情報を抽出する技術が求められるようになった。特に、機械翻訳の分野では翻訳精度を向上させるため、用例を利用する方法が提案されている。用例翻訳に利用される用例検索システムでは、大規模な対訳コーパスから、構文的、意味的に類似した文章を高速で精度良く検索する類似文検索技術の確立が必要とされる。これに対して、従来提案されている手法にキーワード検索などがある。キーワード検索は、あらかじめいくつかのキーワードを抽出または付与しておき、それらと入力文、入力単語との照合によって検索を行う。テキスト全体との照合をする必要がないので、大量のテキストからの高速な内容検索が期待できる。

これらは、広く利用されているが、キーワード検索は、文がキーワードの集合という形に変えられるため、文の一致が保証されず、多くの不適切な用例を検索してしまうという問題が生じる。この問題を解決するため、係り受け関係を利用する方法が提案されている。係り受け関係の一致をとることで、キーワード単位では検索されるような多くの不適切な用例を絞り込むことができる。

係り受けを用いた検索手法が論文[1] で提案されている。 [1]はDB(データベース)から指定した係り受け関係の全てを含む文を検索する手法である。指定した係り受け関係の全てを含むため、入力文と同一の係り受け関係しか抽出することができない。

そこで本研究では、入力文と一致する係り受け関係を最も多く含む文を検索の対象とする。より多く一致を含む文を抽出するため、入力文と係り受けが全て一致する文だけでなく、部分的に一致するような類似文も抽出することができる。また、係り受けの制約を用いることで、係り受け関係の一致する特定のパターンを抽出することができるので、言語データのパターン抽出への応用も期待できる。

本論文では、(1)係り受け関係を利用した類似文検索アルゴリズムの提案、(2)提案した手法の評価実験、 (3)新聞記事のパターン抽出への応用の3つについて述べる。

2002-03-06