【日本文におけるアルゴリズムの適用例】
提案したアルゴリズムを実際に京都大学テキストコーパスに対して 適用してみて、どのような結果が得られるかを実験してみた。 アルゴリズム適用の際の条件として以下のようなものを設定した。
毎日新聞95年1月1日から10日までの全記事、約1万文、1月11日から6月30日まで の社説記事、約1万文の計約2万文(19956文)。
京大コーパスの中からランダムに選択した1文を入力文とする。
入力文の各文節に対して、同一の品詞ならびのものを同じ文節とする。
得られた結果を次ページ以降のdata1、data2に示す。 四角で囲まれた部分の文節が一致文節で、係り受けの部分にかかれている 数字は係り受けの対応関係を表しており、同じ数字が一致ペアとなる。
最も類似した文として、一致文節数4、係り受けの一致ペア数2の文が2文 選び出された。その出力結果において、一致する係り受け関係をみると 、決定された2文のどちらにおいても表現が類似していると みなせる関係が得られていることから、日本文に対して適用していける ものと思われる。 しかし、京大コーパスの記述のしかたなどから、いくつかの処理を 手作業で行わねばならなかった。そのため、一文ごとに結果を得るまでに時間が かかってしまうため大量の入力文を用いることができなかった。 また、同様の理由により検索にかかる時間も計測を行っていない。 より多くの入力に対する検証、検索時間の問題は今後の課題とする。