単語意味属性を基底とする文書ベクトル空間法と単語を基底とする文書ベクトル空間法の比較

次へ: 意味属性体系 上へ: 考察 戻る: 考察

単語意味属性を基底とする文書ベクトル空間法と単語を基底とする文書ベクトル空間法の比較

実験によれば，単語意味属性を基底とする文書ベクトルは，単語を基底とする文書ベクトル空間法に比べて，再現率が高いことが分かった．本研究では，簡単のため，文書中に使用された単語の頻度から直接，意味属性の $tf \cdot idf$ 値を求めることとし，複数の意味を持つ単語は，その $tf \cdot idf$ 値を，該当する複数の意味属性に均等に加える方法を採った．これは，単語を基底とする文書ベクトルの場合と同じ扱いであるが，適合率を減少させる原因の一つと考えられる．これに対して，文書中で使用された単語の多義解消を行うことができれば，適合率の向上は可能であると期待される．

ただし，今回の実験は，BMIR-J2における新聞記事検索のタスクであり，文書数も約5,000件と少ない．今後検索する分野が変化したときや，文章数が増加した場合，これらの結論が変わってくる可能性がある．今後，これらの課題を追求する必要がある．

平成15年4月18日