入力文に対して、DB文中から 文節間の係り受け関係が最も類似した文を抽出するには、入力文 と同一種類の文節(以下一致文節と呼ぶ)が含まれている必要がある。 一致文節を含むDB文に対して、係り受けを構成する文節を 1つのペアとして扱い、 「係り受け関係の一致する文節ペア数が 最大の文が構造的に類似した文である」 とし、DBから最適な文を決定する。 アルゴリズム全体の流れを図1に示す。
図1.アルゴリズム全体の流れ
図2.#3のフローチャート
#1によりDBから一致文節を含む文を抽出する。抽出された 文を一致文節数が多いものから順にソートする。 上位の候補から順に#2、#3を適用し、 各候補に対して係り受けの一致(一致ペア数)が最も多くとれるパターンを 決定する。このとき得られた一致ペア数 から、繰り返し条件を設定する。得られた一致ペア数をnとし、 各候補文の一致文節数をmとする。 条件m>nを満たす候補に対して#2、#3を適用する。 最終的に、得られた一致ペア数の中で最大の候補が最も 類似した文として決定される。 次に#3を説明する。