近年、自然言語処理の分野では実際の自然言語で記述された 大規模なコーパスや用例の重要性が認識されるようになり、 その分析のために、コーパスから特定の情報を抽出する技術 が求められるようになった。 特に、機械翻訳の分野では翻訳精度を向上させるため、用例を利用する 方法が提案されている。用例翻訳に利用される用例検索システムでは、 大規模な対訳コーパスから、構文的、意味的に類似した文章を高速で精度良く 検索する類似文検索技術の確立が必要とされる。 これに対して、従来提案されている手法に キーワード検索[1]や意味距離計算[2]等がある。 キーワード検索は、あらかじめいくつかのキーワードを抽出または付与しておき、 それらと入力文、入力単語との照合によって検索を行う。 テキスト全体との照合をする必要がないので、大量のテキストからの 高速な内容検索が期待できる。 また、意味距離計算を行う方法では、文間の類似度を文を構成する各単語 の意味属性を集合演算することにより算出する。これによって、 表層的に違いのある文でも、ある程度意味的に近い文を 判定できる。
これらは、広く利用されているが、 キーワード検索は、文がキーワードの集合という 形に変えられるため、文そのものの一致が保証されないという 問題がある。また文の構造的な情報が使用されておらず、 文の構造の類似性を判定するのは困難である。 また意味距離計算では、文を単語の意味属性の集合として扱ってしまうため 文の構造的な類似性を判定することはできない。
そこで本研究では、文の構造の類似性の判定に日本文の持つ係り受け関係を 利用し、類似文を検索する手法を提案する。 具体的には、係り受けを構成する文節をペアで扱い、 係り受けの一致する文節ペア数が最大の文が構造的に類似した 文であるとし、最適な文を決定する。 昨年の研究成果である日本語類似文検索アルゴリズムの研究[3]の 手法を取り入れ、アルゴリズムを3つの手順に分割し全体を構成する。
このアルゴリズムの動作を確認するために類似文検索システムを 試作し、類似文検索実験を試みる。
以下、第2章では文の構造的類似性判定について、3章で試作した 類似文検索システムについて、4章で実験について述べる。