2.2 類似性判定アルゴリズム

Next: 2.3 同一係り受け文節ペアの発見 Up: 2．係り受け関係から見た文の構造的類似性 Previous: 2.1 日本文における係り受けの特徴

2.2 類似性判定アルゴリズム

入力文に対して、DB文中から文節間の係り受け関係が最も類似した文を抽出するには、入力文と同一種類の文節(以下一致文節と呼ぶ)が含まれている必要がある。一致文節を含むDB文に対して、係り受けを構成する文節を 1つのペアとして扱い、「係り受け関係の一致する文節ペア数が最大の文が構造的に類似した文である」とし、DBから最適な文を決定する。アルゴリズム全体の流れを図1に示す。

$\includegraphics[scale=0.85]{pic1_bak.eps}$

図1.アルゴリズム全体の流れ

$\includegraphics[width=5cm,height=9.3cm]{fro.eps}$

図2．#3のフローチャート

#1によりDBから一致文節を含む文を抽出する。抽出された文を一致文節数が多いものから順にソートする。上位の候補から順に#2、#3を適用し、各候補に対して係り受けの一致(一致ペア数)が最も多くとれるパターンを決定する。このとき得られた一致ペア数から、繰り返し条件を設定する。得られた一致ペア数をnとし、各候補文の一致文節数をmとする。条件m>nを満たす候補に対して#2、#3を適用する。最終的に、得られた一致ペア数の中で最大の候補が最も類似した文として決定される。次に#3を説明する。

2001-10-02