next up previous
次へ: 実験 上へ: 必要最小限の意味属性の決定 戻る: 値による汎化 S-VSM(w)

ベクトル変換のための計算コスト

2節で述べた汎化は,基本となるベクトルの軸を変換する点で は,従来のKL法やLSI法と同様である.そこで,そのために必要な計算コスト を比較する.まず,ベクトルの基底数を削減するのに要するコストについて考 える.

データベースに収録された文書の総数と削減前のベクトルの基底数の和を$N$, 削減後のベクトル基底数を$k$とすると,単語を基底とした文書ベクトル空間法の場合,通常, 計算量は$N^4$もしくは$N^5$に比例すると言われている.LSI方式でも,特異 値分解に必要な計算量は,$N^2 \cdot k^3$に比例する.このため,データベー スの規模が増大すると急激に計算量が増大することが大きな問題であった.

[*]

これに対して,使用される意味属性の総数を$M$,段数を$d$(日本語語彙大系 の場合 $M=2,710$,$d=10$ )とすると,単語意味属性を基底とした文書ベクトルにおいて粒度 による汎化を行うときは,必要最小限の意味属性の数を求めるための計算コス トは,ほぼ,$M \cdot d$に比例する.また$tf \cdot idf$ 値による汎化の場 合は,ほぼ,$M^2-k^2$に比例する.また,必要最小限の意味属性の組が決定 した後,文書毎の特性ベクトルを変換することは容易で,その計算コストは, 文書量に比例する.



平成15年4月18日