ベクトル変換のための計算コスト

次へ: 実験 上へ: 必要最小限の意味属性の決定 戻る: 値による汎化 S-VSM(w)

ベクトル変換のための計算コスト

2節で述べた汎化は，基本となるベクトルの軸を変換する点では，従来のKL法やLSI法と同様である．そこで，そのために必要な計算コストを比較する．まず，ベクトルの基底数を削減するのに要するコストについて考える．

データベースに収録された文書の総数と削減前のベクトルの基底数の和を，削減後のベクトル基底数をとすると，単語を基底とした文書ベクトル空間法の場合，通常，計算量はもしくはに比例すると言われている．LSI方式でも，特異値分解に必要な計算量は， $N^2 \cdot k^3$ に比例する．このため，データベースの規模が増大すると急激に計算量が増大することが大きな問題であった．

これに対して，使用される意味属性の総数を，段数を（日本語語彙大系の場合 , ）とすると，単語意味属性を基底とした文書ベクトルにおいて粒度による汎化を行うときは，必要最小限の意味属性の数を求めるための計算コストは，ほぼ， $M \cdot d$ に比例する．また $tf \cdot idf$ 値による汎化の場合は，ほぼ，に比例する．また，必要最小限の意味属性の組が決定した後，文書毎の特性ベクトルを変換することは容易で，その計算コストは，文書量に比例する．

平成15年4月18日