実際にコーパスに対してアルゴリズムを適用 し、その性能を評価する。 検索対象データベースには京都大学テキストコーパス (毎日新聞記事約2万文)を使用し、 各文節の品詞並びが同一のものを 一致文節とする。 入力文は京大コーパスの中から30文程度を選び、 入力文・DBともにあらかじめ文節を記号で 置き換えて用いる。 実験の結果を表1に示す。 表中の抽出数は#1によりDBから抽出された 一致文節を含む文の数、適用数は 繰り返し回数(図1中の*)を表わす。最大ペアは得られた一致ペア数の 中で最大のものとその件数を表わす。 検索時間はDBから一致文節を抽出して各候補の 一致ペア数を決定し、条件を満たして終了するまでに かかった時間を表わす。
表1より、文節数の増加に伴い抽出数・適用数が多くなり 検索時間が増加するという結果が得られた。
文節数 | 抽出数 | 適用数 | 最大ペア | 検索時間(s) |
5 | 9391 | 1112 | 4(2) | 1.29 |
8 | 9122 | 1280 | 4(6) | 1.46 |
14 | 12603 | 1433 | 6(1) | 1.69 |
26 | 14054 | 2933 | 5(19) | 3.67 |