next up previous
次へ: 意味属性体系を基底とした文書ベクトル空間法 上へ: 技術資料 単語意味属性を使用したベクトル空間法 戻る: 技術資料 単語意味属性を使用したベクトル空間法

はじめに

近年,情報化社会の進展と共に大量の電子化された文書情報の中から,自分が 必要とする文書情報を効率良く検索することの必要性が高まり,従来のKW検 索に加えて,全文検索,ベクトル空間法による検索,内容検索,意味的類似性 検索など,さまざまな文書検索技術の研究が盛んである.その中で,文書中の 単語を基底とする特性ベクトルによって文書の意味的類似性を表現するベクト ル空間法は,利用者が検索要求を例文で与える方法であり,KW検索方式に比 べて検索条件が具体的に表現されるため,検索精度が良い方法として注目され ている.

しかし,従来のベクトル空間法は,多数の単語を基底に用いるため,類似度計 算にコストがかかることや,検索要求文に含まれる単語数が少ないとベクトル がスパースになり,検索漏れが多発する恐れのあることなどが問題とされてい る.

これらの問題を解決するため,さまざまな研究が行われてきた.例えば,簡単 な方法としては, $tf \cdot idf$ 法 [Salton McGillSalton McGill1983]などによって,文書デー タベース中での各単語の重要度を判定し,重要と判定された語のみをベクトル の基底に使用する方法が提案されている.また,ベクトル空間法では,ベクト ルの基底に使用される単語は,互いに意味的に独立であることが仮定されてい るのに対して,現実の言語では,この仮定は成り立たない.そこで,基底の一 次結合によって,新たに独立性の高い基底を作成すると同時に,基底数を減少 させる方法として,KL法[Borko BernickBorko Bernick1963]やLSI法 [Golub VanloanGolub Vanloan1996],[Faloutsos LinFaloutsos Lin1995],[DeerwesterDumaisFurnasLandauer HarshmanDeerwester et al.1990]が提案されている.

KL法は,単語間の意味的類似性を評価する方法で,クラスタリングの結果得ら れた各クラスターの代表ベクトルを基底に使用する試みなどが行われている. これに対して,LSI法は,複数の単語の背後に潜在的に存在する意味を発見し ようとする方法で,具体的には,データベース内の記事の特性ベクトル全体か らなるマトリックスに対して,特異値分解(SVD)の方法[Golub VanloanGolub Vanloan1996]を応用し て,互いに独立性の高い基底を求めるものである.この方法は,検索精度をあ まり低下させることなく基底数の削減が可能な方法として着目され,数値デー タベースへの適用[JiangBerryDonato OsrtouchovJiang et al.1999]も試みられている.しかし,ベクトルの基底軸 を変換するための計算コストが大きいことが問題で,規模の大きいデータベー スでは,あらかじめ,サンプリングによって得られた一定数の記事のみからベ クトルの基底を作成する方法[DeerwesterDumaisFurnasLandauer HarshmanDeerwester et al.1990]などが提案されている.この ほか,単語の共起情報のスパース性の問題を避ける方法としては,擬似的なフィー ドバック法(2段階検索法とも呼ばれる) [BurkleyChrisSinghlMitra SaltonBurkley et al.1996],[Kwok ChanKwok Chan1998]なども試みられている. また,ベクトルの基底とする単語の意味的関係を学習する方法としては,従来 から,Mining Term Association と呼ばれる方法があり,最近,インターネッ ト文書から体系的な知識を抽出するのに応用されている[LinShihChenHo KoLin et al.1998].しかし, 現実には,単語間の意味的関係を自動的に精度良く決定することは容易でない.

これに対して,本論文では,ベクトル空間法において,検索精度をあまり低下さ せることなく,基底数を容易に削減できることを期待して,単語の意味属性をベ クトルの基底として使用する方法を提案する.この方法は,従来の特性ベクトル において基底に使用されている単語を,その意味属性に置き換えるものである. 単語意味属性としては,日本語語彙大系[木谷他木谷他1998]に定義された意味属性体系 を使用する.この意味属性体系は,日本語の名詞の意味的用法を約2,710種類に 分類したもので,属性間の意味的関係(is-a関係とhas-a関係)が12段の木構造 によって表現されている.また,日本語の単語30万語に対して,どの意味属性 (1つ以上)に属す単語であるかが指定されている.従って,本方式では,意味 属性相互の意味的上下関係を利用すれば,検索精度をあまり落とさずにベクトル の基底数を削減できる.同時に基底として使用すべき必要最低限の意味属性の組 を容易に決定できることが期待される.また,本方式では,検索要求文に使用さ れた単語とデータベース内の記事中の単語の意味的な類似性が,単語意味属性を 介して評価されるため,再現率の向上が期待できる.すなわち,従来の単語を基 底とした文書ベクトル空間法では,ベクトルの基底として使用された単語間のみ での一致性が評価されるのに対して,本方式では,すべての単語(30万語)が検 索に寄与するため,検索漏れの防止に役立つと期待される.

本論文では,TRECに登録された情報検索テストコレクションBMIR-J2[木谷他木谷他1998] を検索対象とした検索実験によって,従来の単語を用いた文書ベクトル空間法と 比較し,本方式の有効性を評価する.



平成15年4月18日