類似性判定アルゴリズム

次へ: 日本文における係り受けの特徴 上へ: 文の構造的類似性判定法 戻る: 文の構造的類似性判定法目次

類似性判定アルゴリズム

入力文に対して、DB文中から文節間の係り受け関係が最も類似した文を抽出するには、入力文と同一の種類の文節(以下、一致文節と呼ぶ)が含まれている必要がある。一致文節を含むDB文に対して、「係り受け関係の一致する文節ペア数が最大の文が構造的に類似した文である」とし、最適な文を決定する。図1に示すように、３つの手順に分割してアルゴリズム全体の流れを構成する。

**図 1:** アルゴリズムの流れ
$\includegraphics[width=12cm,keepaspectratio]{pic1.eps}$

なお、#1には、昨年の研究成果である、日本語類似文検索アルゴリズムの研究[3]の手法を、文字から文節を照合単位とした場合に拡張したものを使用する。これにより、一致文節数で順位付された複数候補が選び出される。一致文節数上位の候補から順に、#2,#3を適用し、係り受け関係の一致する文節ペア数が最大の文を決定する。

各手順の詳細な説明は2.3節で述べる。

平成14年5月1日