next up previous
Next: 2.3 同一係り受け文節ペアの発見 Up: 2.係り受け関係から見た文の構造的類似性 Previous: 2.1 日本文における係り受けの特徴

2.2 類似性判定アルゴリズム

入力文に対して、DB文中から 文節間の係り受け関係が最も類似した文を抽出するには、入力文 と同一種類の文節(以下一致文節と呼ぶ)が含まれている必要がある。 一致文節を含むDB文に対して、係り受けを構成する文節を 1つのペアとして扱い、 「係り受け関係の一致する文節ペア数が 最大の文が構造的に類似した文である」 とし、DBから最適な文を決定する。 アルゴリズム全体の流れを図1に示す。

\includegraphics[scale=0.85]{pic1_bak.eps}


図1.アルゴリズム全体の流れ

    \includegraphics[width=5cm,height=9.3cm]{fro.eps}    

図2.#3のフローチャート

#1によりDBから一致文節を含む文を抽出する。抽出された 文を一致文節数が多いものから順にソートする。 上位の候補から順に#2、#3を適用し、 各候補に対して係り受けの一致(一致ペア数)が最も多くとれるパターンを 決定する。このとき得られた一致ペア数 から、繰り返し条件を設定する。得られた一致ペア数をnとし、 各候補文の一致文節数をmとする。 条件m>nを満たす候補に対して#2、#3を適用する。 最終的に、得られた一致ペア数の中で最大の候補が最も 類似した文として決定される。 次に#3を説明する。




2001-10-02