次へ: 文の構造的類似性判定法 上へ: mysoturon 戻る: 表一覧目次

まえがき

近年、自然言語処理の分野では実際の自然言語で記述された大規模なコーパスや用例の重要性が認識されるようになり、その分析のために、コーパスから特定の情報を抽出する技術が求められるようになった。特に、機械翻訳の分野では翻訳精度を向上させるため、用例を利用する方法が提案されている。用例翻訳に利用される用例検索システムでは、大規模な対訳コーパスから、構文的、意味的に類似した文章を高速で精度良く検索する類似文検索技術の確立が必要とされる。これに対して、従来提案されている手法にキーワード検索[1]や意味距離計算[2]等がある。キーワード検索は、あらかじめいくつかのキーワードを抽出または付与しておき、それらと入力文、入力単語との照合によって検索を行う。テキスト全体との照合をする必要がないので、大量のテキストからの高速な内容検索が期待できる。また、意味距離計算を行う方法では、文間の類似度を文を構成する各単語の意味属性を集合演算することにより算出する。これによって、表層的に違いのある文でも、ある程度意味的に近い文を判定できる。

これらは、広く利用されているが、キーワード検索は、文がキーワードの集合という形に変えられるため、文そのものの一致が保証されないという問題がある。また文の構造的な情報が使用されておらず、文の構造の類似性を判定するのは困難である。また意味距離計算では、文を単語の意味属性の集合として扱ってしまうため文の構造的な類似性を判定することはできない。

そこで本研究では、文の構造の類似性の判定に日本文の持つ係り受け関係を利用し、類似文を検索する手法を提案する。具体的には、係り受けを構成する文節をペアで扱い、係り受けの一致する文節ペア数が最大の文が構造的に類似した文であるとし、最適な文を決定する。昨年の研究成果である日本語類似文検索アルゴリズムの研究[3]の手法を取り入れ、アルゴリズムを3つの手順に分割し全体を構成する。

このアルゴリズムの動作を確認するために類似文検索システムを試作し、類似文検索実験を試みる。

以下、第2章では文の構造的類似性判定について、3章で試作した類似文検索システムについて、4章で実験について述べる。

平成14年5月1日