3.3節で述べた品詞分類をもとに検索実験を行う。 実験の結果を表3に示す。 表中の抽出数はアルゴリズム#1(一致文節の抽出)によりDBから 抽出された一致文節を含む文の数、繰り返しは 条件を満たして終了するまでの処理の回数を表わす。 最大一致ペアは得られた 一致ペア数の最大数と件数を表わす。 削減率はDBから抽出された一致文節に対して、 係り受け関係を考慮することで どれくらい候補を減らせるのかを表わし、 以下のように算出する。
また、実験により得られた検索結果の例を図13〜 図15に示す。 図において、矢印の上の数字が係り受けペアの番号 を表わす。同じ番号のペア同士が係り受け一致ペアである。
実験結果より、 入力文の文節数の増加に伴い、一致文節を含む候補が 多くなり抽出数が増加する。しかし、抽出された候補に対して 係り受け関係の一致を考慮することにより、 候補が大幅に削減でき類似文を 検索することができた。
文節数 | 抽出数 | 繰り返し | 最大一致ペア(件) | 削減率(%) |
3 | 4,343 | 24 | 2(10) | 99.7 |
4 | 4,757 | 461 | 2(80) | 98.3 |
5 | 8,258 | 247 | 3(15) | 99.8 |
6 | 8,707 | 35 | 4(1) | 99.9 |
7 | 11,748 | 275 | 5(3) | 99.9 |
8 | 12,879 | 111 | 4(2) | 99.9 |
9 | 8,119 | 10 | 4(2) | 99.9 |
10 | 12,127 | 219 | 2(55) | 99.5 |
12 | 14,488 | 213 | 4(7) | 99.9 |
16 | 15,402 | 94 | 5(2) | 99.9 |
18 | 14,908 | 508 | 4(3) | 99.9 |
20 | 14,103 | 330 | 4(4) | 99.9 |
23 | 15,411 | 239 | 5(2) | 99.9 |
25 | 16,423 | 79 | 6(3) | 99.9 |
28 | 16,374 | 75 | 6(6) | 99.9 |
検索結果の例1
○入力文
今回の
調査対象は約四千四百万世帯、
一億二千五百万人に及ぶとみられる。
○DB文1
福岡高裁の和解案を基に想定すると、
少なくとも熊本水俣病で五千人へ約三百億円、
新潟水俣病で
約三百人、数十億円に及ぶとみられる。
○DB文2
ロシア側は首都制圧の
最終段階に入ったとみられる。
検索結果の例2
○入力文
新進党党首「海部俊樹氏」の二三%をわずかに
抑えてトップになった。
○DB文
車にいたずらしてムチ打ち刑を受けた
米国人少年マイケル・フェイ君がメージャー英首相など
並み居る“話題の人”を抑えてトップに立った。
検索結果の例3
○入力文
気球が上がり始めると、児童から
「すごい」 「お願いをかなえて」と
歓声が上がった。
○DB文
市章の「みおつくし」をかたどった五色の
一斉放水が始まると、両岸を埋めた
大勢の
見物客から大きな
拍手が上がった。