next up previous contents
Next: 検索実験の考察 Up: 類似文検索における係り受けの効果 Previous: 一致文節の分類

検索実験

3.3節で述べた品詞分類をもとに検索実験を行う。 実験の結果を表3に示す。 表中の抽出数はアルゴリズム#1(一致文節の抽出)によりDBから 抽出された一致文節を含む文の数、繰り返しは 条件を満たして終了するまでの処理の回数を表わす。 最大一致ペアは得られた 一致ペア数の最大数と件数を表わす。 削減率はDBから抽出された一致文節に対して、 係り受け関係を考慮することで どれくらい候補を減らせるのかを表わし、 以下のように算出する。

削減率 = 1 - 最大一致ペアの件数/抽出数

また、実験により得られた検索結果の例を図13〜 図15に示す。 図において、矢印の上の数字が係り受けペアの番号 を表わす。同じ番号のペア同士が係り受け一致ペアである。

実験結果より、 入力文の文節数の増加に伴い、一致文節を含む候補が 多くなり抽出数が増加する。しかし、抽出された候補に対して 係り受け関係の一致を考慮することにより、 候補が大幅に削減でき類似文を 検索することができた。


 
Table 3: 実験結果
文節数 抽出数 繰り返し 最大一致ペア(件) 削減率(%)
3 4,343 24 2(10) 99.7
4 4,757 461 2(80) 98.3
5 8,258 247 3(15) 99.8
6 8,707 35 4(1) 99.9
7 11,748 275 5(3) 99.9
8 12,879 111 4(2) 99.9
9 8,119 10 4(2) 99.9
10 12,127 219 2(55) 99.5
12 14,488 213 4(7) 99.9
16 15,402 94 5(2) 99.9
18 14,908 508 4(3) 99.9
20 14,103 330 4(4) 99.9
23 15,411 239 5(2) 99.9
25 16,423 79 6(3) 99.9
28 16,374 75 6(6) 99.9

       


検索結果の例1

○入力文

今回の 調査対象は約四千四百万世帯、 一億二千五百万人に及ぶとみられる。

○DB文1

福岡高裁の和解案を基に想定すると、 少なくとも熊本水俣病で五千人へ約三百億円、 新潟水俣病で 約三百人、数十億円に及ぶとみられる。

○DB文2

ロシア側は首都制圧の 最終段階に入ったとみられる。


  
Figure 13: 検索結果の例1
\includegraphics[scale=1.5]{kensakurei1.eps}

検索結果の例2

○入力文

新進党党首「海部俊樹氏」の二三%をわずかに 抑えてトップになった。

○DB文

車にいたずらしてムチ打ち刑を受けた 米国人少年マイケル・フェイ君がメージャー英首相など 並み居る“話題の人”を抑えてトップに立った。


  
Figure 14: 検索結果の例2
\includegraphics[scale=1.5]{kensakurei2.eps}

検索結果の例3

○入力文

気球が上がり始めると、児童から 「すごい」 「お願いをかなえて」と 歓声が上がった。

○DB文

市章の「みおつくし」をかたどった五色の 一斉放水が始まると、両岸を埋めた 大勢の 見物客から大きな 拍手が上がった。


  
Figure 15: 検索結果の例3
\includegraphics[scale=1.5]{kensakurei3.eps}


next up previous contents
Next: 検索実験の考察 Up: 類似文検索における係り受けの効果 Previous: 一致文節の分類

2002-03-06