next up previous contents
Next: 文節の削除(#2) Up: アルゴリズムの概略 Previous: アルゴリズムの概略

一致文節の抽出(#1)

#1の一致文節の抽出について図3を 用いて説明する。 DBの中から入力文と同一の文節を含む文の一致文節を 抽出し、一致文節数で順位付けする。 図のような入力文を考え、DBから図の右側に挙げたような 一致文節が抽出されたとする。図の斜線部は不一致文節を表わす。 本研究では、入力文と同じ係り受けペアを最も多く含む文が 検索の対象となるため、図3のように部分的に一致文節を 含むDB文(文3,4)も候補となる。 また、この時点では係り受け関係の一致を考慮していないため、 文節が一致しているだけの候補(文2,5)も抽出される。 一致文節数上位の候補から順に#2、#3を繰り返し適用する。 繰り返しは、得られた一致ペア数をこえる文節数の 候補に対して行なう。


  
Figure 3: 一致文節の抽出
\includegraphics[scale=1.4]{cand.eps}

○繰り返し条件

得られた一致ペア数から、 繰り返し条件を設定する。得られた一致ペア数をnとし、 各候補文の一致文節数をmとする。 一致ペア数nを得るには最低でもn+1個の文節が必要 となる。そこで 条件m>nを満たす候補に対して#2、#3を適用する。 最終的に、一致ペア数が最も大きい候補が 最適な文となる。 繰り返し条件の設定を例を用いて説明する。

図の説明

・繰り返し1回目

一致文節数が最も多い文1に#2と#3を 適用し、一致ペア数n=3が 得られたとする。

これを初期値nmaxとし、 文節数m>nmaxとなる候補に対して繰り返す。 例では次の

候補(文2)は文節数m=5なので、条件を満たす。

・繰り返し2回目

文2に#2と#3を適用し一致ペア数n=4が得られたとする。 nmax<nより、nmax

値を更新する。 次の候補(文3)は文節数m=5なので、繰り返し条件を満たす。

・繰り返し3回目

文3に#2と#3を適用し一致ペア数n=2が得られたとする。 nmax>nより、値は更

新しない。 次の候補(文4)は文節数m=4で条件を満たさないため、 繰り返しはここ

で終了となる。終了時点で 最も一致ペア数の多い文2が最適な文となる。


  
Figure 4: 繰り返し条件の設定の例
\includegraphics[scale=1.18]{jyoken.eps}




2002-03-06