next up previous
次へ: 必要最小限の意味属性 上へ: 考察 戻る: 意味属性体系

基底数の削減のためのテストデータ

実験では,提案した単語意味属性を基底とした文書ベクトル空間法と従来の単語 を基底とした文書ベクトル空間法が基底数削減にどれだけ強いかを比較評価する ため,情報検索方式の評価実験用として広く提供されているBMIRのデータセット (検索条件と正解付き)を使用した.実験はいずれもオープンテストである.こ れは,以下に述べるように,この種の研究では大量のデータを対象としたオープ ンテストは困難なためである.

すなわち,本手法では,検索対象とするデータベースに対して必要最小限の意味 属性の組を発見することが必要であるが,そのためには,汎化を進める過程で検 索精度が低下するかどうかの評価が必要で,検索結果についてあらかじめ正解を 知っておく必要がある.しかし,大規模なデータベースの場合,様々な検索条件 について,あらかじめ正しい検索結果を知ることは通常難しい(この事情は他の 検索方式の場合も同様である). 

ところで,本方式を現実のシステムに応用するには,部分的な標本(例えば,数 千件程度の記事)に対して今回と同様の実験により必要最小限の意味属性の組決 める必要があるが,必要な意味属性の数(これを$n$個とする)が分かれば,$n$ 個を構成する意味属性の種類は,データベースの規模に応じてさらに最適化する ことができる.すなわち,大規模なデータベースでも単語の出現頻度統計を取る のは比較的容易であるから,単語統計から作成された意味属性を初期値 とし,意味属性数が$n$となるまで汎化すれば,残った$n$個の意味属性は,デー タベース全体から見て最適な組み合わせとなり,運用段階においてもクローズド テストに近い検索精度が得られるものと期待できる.



平成15年4月18日