next up previous


PDF file はこちら



次へ: はじめに

池原, 村上, 木本

鳥取大学工学部知能情報工学科,鳥取市, Faculty of Engineering, Tottori University, Tottori-shi, 680-8552, Japan

概要:

従来,ベクトル空間法において,ベクトルの基底数を削減するため,ベクトル の基軸を変換する方法が提案されている.この方法の問題点として,計算量が 多く,大規模なデータベースへの適用が困難であることが挙げられる.

これに対して,本論文では,特性ベクトルの基底として,単語の代わりに単語の 意味属性(「日本語語彙大系」で規定された約2,710種類)を使用する方法を提 案する.この方法は,意味属性間の包含関係に基づいた汎化が可能で計算コスト もきわめて少なく,容易にベクトルの次元数を圧縮できることが期待される.ま た,単語の表記上の揺らぎに影響されず,同義語,類義語も考慮されるため,従 来の単語を基底とする文書ベクトル空間法に比べて,検索漏れを減少させること が期待される.

BMIR-J2の新聞記事検索(文書数約5,000件)に適用した実験結果によれば,提案 した方法は,次元数の削減に強い方法であり,検索精度をあまり落とすことなく, 文書ベクトルの基底数を300〜600程度まで削減できることが分かった.また,単語を 基底とした文書ベクトルの方法と比べて高い再現率が得られることから,キーワー ド検索におけるKW拡張と同等の効果のあることが分かった.

情報検索,ベクトル空間法,意味解析,意味属性,汎化

Vector Space Model bsased on Semantic Attributes of Words Satoru IkeharaKUEE and Jin'ichi MurakamiKUEE and Yasuhiro KIMOTOKUEE


Information Retrieval, Vector Space Model, Semantic Analysis, Semantic Attribute, Generalization

技術資料 単語意味属性を使用したベクトル空間法

池原 悟KUEE - 村上 仁一KUEE - 木本 泰博KUEE





平成15年4月18日