基底数の削減のためのテストデータ

次へ: 必要最小限の意味属性 上へ: 考察 戻る: 意味属性体系

基底数の削減のためのテストデータ

実験では，提案した単語意味属性を基底とした文書ベクトル空間法と従来の単語を基底とした文書ベクトル空間法が基底数削減にどれだけ強いかを比較評価するため，情報検索方式の評価実験用として広く提供されているBMIRのデータセット（検索条件と正解付き）を使用した．実験はいずれもオープンテストである．これは，以下に述べるように，この種の研究では大量のデータを対象としたオープンテストは困難なためである．

すなわち，本手法では，検索対象とするデータベースに対して必要最小限の意味属性の組を発見することが必要であるが，そのためには，汎化を進める過程で検索精度が低下するかどうかの評価が必要で，検索結果についてあらかじめ正解を知っておく必要がある．しかし，大規模なデータベースの場合，様々な検索条件について，あらかじめ正しい検索結果を知ることは通常難しい（この事情は他の検索方式の場合も同様である）．　

ところで，本方式を現実のシステムに応用するには，部分的な標本（例えば，数千件程度の記事）に対して今回と同様の実験により必要最小限の意味属性の組決める必要があるが，必要な意味属性の数（これを個とする）が分かれば，個を構成する意味属性の種類は，データベースの規模に応じてさらに最適化することができる．すなわち，大規模なデータベースでも単語の出現頻度統計を取るのは比較的容易であるから，単語統計から作成された意味属性を初期値とし，意味属性数がとなるまで汎化すれば，残った個の意味属性は，データベース全体から見て最適な組み合わせとなり，運用段階においてもクローズドテストに近い検索精度が得られるものと期待できる．

平成15年4月18日