next up previous contents
次へ: この文書について... 上へ: mysoturon 戻る: まとめ   目次

文献目録

1
Salton,G.M.:Introduction to Modern Information Retrieval,McGraw-Hill(1983).

2
大井、隅田、飯田:意味的類似性と多義解消を用いた文書検 索手法,自然言語処理,Vol.4,No.3,pp.51-70(1997).

3
市原、池原、村上:要素の順序関係から見た類似文最適照 合検索,自然言語処理学会第5回年次大会(1999).

【日本文におけるアルゴリズムの適用例】

提案したアルゴリズムを実際に京都大学テキストコーパスに対して 適用してみて、どのような結果が得られるかを実験してみた。 アルゴリズム適用の際の条件として以下のようなものを設定した。

得られた結果を次ページ以降のdata1、data2に示す。 四角で囲まれた部分の文節が一致文節で、係り受けの部分にかかれている 数字は係り受けの対応関係を表しており、同じ数字が一致ペアとなる。

最も類似した文として、一致文節数4、係り受けの一致ペア数2の文が2文 選び出された。その出力結果において、一致する係り受け関係をみると 、決定された2文のどちらにおいても表現が類似していると みなせる関係が得られていることから、日本文に対して適用していける ものと思われる。 しかし、京大コーパスの記述のしかたなどから、いくつかの処理を 手作業で行わねばならなかった。そのため、一文ごとに結果を得るまでに時間が かかってしまうため大量の入力文を用いることができなかった。 また、同様の理由により検索にかかる時間も計測を行っていない。 より多くの入力に対する検証、検索時間の問題は今後の課題とする。



平成14年5月1日