next up previous
次へ: 文献目録 上へ: 技術資料 単語意味属性を使用したベクトル空間法 戻る: 値による汎化 と 頻度による汎化

結論

従来,ベクトル空間法では,文書の意味を表す特性ベクトルの基底に,文中に 現れる単語を使用していた.本論文では,単語の代わりに単語の意味属性 (「日本語語彙大系」で規定された約2,710件)を使用する方法を提案した. また,意味属性間の意味的上下関係に着目したベクトルの基底の汎化の方法を 提案し,情報検索の精度を低下させない範囲で,基底数を削減する方法を示し た.この方法は,基底数を削減するための計算量が,データベース内の文書数 に依存しないため,大規模なデータベースへの適用が容易である.

BMIR-J2の新聞記事(5,080記事)の検索に適用した実験結果によれば,提案し た方法は,単語の表記上の揺らぎに影響されず,同義語や類義語の存在も検索 の対象となることから,従来の方法と比べて高い再現率が得られた.その反面, 単語を基底とする文書ベクトルの場合に比べて,不適切な記事を拾いやすく,適合率が低下する ことが分かった.この効果は,キーワード検索においてシソーラスを使用した KW拡張の効果に相当する.また,本方式は,次元数の削減に強い方法であり, 従来の方法に比べて,検索精度を落とすことなく,ベクトルの基底数を大幅に 削減できることが分かった.

今回は,単語の多義性の問題は考慮しなかったが,単語意味属性を基底とする文 書ベクトルでは,意味属性体系の持つ能力を用いて単語の多義を解消した後,基 底とする意味属性の重みを計算する方法が可能と考えられるので,今後は,この 方法についても検討していきたい.また,基底数をさらに削減する方法として, 意味属性体系の上位のノードから順に,不適切な記事を拾いやすいノードを選択 してベクトルの基底から削除する方法についても検討していく予定である.



平成15年4月18日