next up previous
次へ: 意味属性体系 上へ: 考察 戻る: 考察

単語意味属性を基底とする文書ベクトル空間法と単語を基底とする文書ベクトル空間法の比較

実験によれば,単語意味属性を基底とする文書ベクトルは,単語を基底とする文 書ベクトル空間法に比べて,再現率が高いことが分かった.本研究では,簡単の ため,文書中に使用された単語の頻度から直接,意味属性の$tf \cdot idf$ 値 を求めることとし,複数の意味を持つ単語は,その $tf \cdot idf$ 値 を,該 当する複数の意味属性に均等に加える方法を採った.これは,単語を基底とする 文書ベクトルの場合と同じ扱いであるが,適合率を減少させる原因の一つと考え られる.これに対して,文書中で使用された単語の多義解消を行うことができれ ば,適合率の向上は可能であると期待される.

ただし,今回の実験は,BMIR-J2における新聞記事検索のタスクであり,文書 数も約5,000件と少ない.今後検索する分野が変化したときや,文章数が増加 した場合,これらの結論が変わってくる可能性がある.今後,これらの課題を 追求する必要がある.



平成15年4月18日