next up previous contents
Next: アルゴリズム全体の流れ Up: 類似性判定アルゴリズム Previous: 類似性判定アルゴリズム

一致文節と判定基準

入力文に対して、DB文中から文節間の係り受け関係が 最も類似した文を抽出するには、入力文と同一の 種類の文節(以下、一致文節と呼ぶ)が含まれている必要が ある。一致文節を含むDB文に対して、「係り受け関係の一致する 文節ペア数が最大の文が構造的に類似した文である」 という判定基準を設け、類似文を決定する。

この判定基準を設けた上で、入力文と求めたい 出力結果との関係を図を用いて表わすと次の ようになる。


  
Figure 1: 入力文と求めたい出力結果
\includegraphics[width=14cm,keepaspectratio]{img_inp_out.eps}

1のような文節と係り受け関係を 持つ文を入力文とした場合を考える。 同様に係り受け関係を与えたDBから、入力文と 同じ係り受け関係を最も多く含む文を発見する ことが目的となる。 ここでは複数の候補を挙げているが、最も多く 一致がとれる文が最適な文となる。

アルゴリズムについて以下で説明していく。




2002-03-06