next up previous contents
次へ: 日本文における係り受けの特徴 上へ: 文の構造的類似性判定法 戻る: 文の構造的類似性判定法   目次

類似性判定アルゴリズム

入力文に対して、DB文中から文節間の係り受け関係が 最も類似した文を抽出するには、入力文と同一の 種類の文節(以下、一致文節と呼ぶ)が含まれている必要が ある。一致文節を含むDB文に対して、「係り受け関係の一致する 文節ペア数が最大の文が構造的に類似した文である」 とし、最適な文を決定する。図1に示すように、3つの手順に分割して アルゴリズム全体の流れを構成する。

図 1: アルゴリズムの流れ
\includegraphics[width=12cm,keepaspectratio]{pic1.eps}

なお、#1には、昨年の研究成果である、 日本語類似文検索アルゴリズムの研究[3]の 手法を、文字から文節を照合単位とした場合に拡張したものを 使用する。これにより、一致文節数で順位付された複数候補が 選び出される。一致文節数上位の候補から順に、#2,#3を適用し、 係り受け関係の一致する文節ペア数が最大の文を決定する。

各手順の詳細な説明は2.3節で述べる。



平成14年5月1日