検索要求として新聞記事が与えられたとき,類似した新聞記事を検索すること
を考え,「主題が一致している新聞記事」を正解とする.具体的には,主題が
一致している記事(ランクA)のうちの1つを検索要求用の記事に使用し,デー
タベース内に収録された5,079件の記事の中から残りのランクAの記事を検索す
る.検索要求用の記事を替えながら,この手順を90回繰り返し,平均の検索精
度で評価する.従来の単語を基底とした文書ベクトル空間法による実験では,データベース記事
全体を対象に使用されている名詞の 値を求め,その値の大き
い順に基底とする名詞を決定する.また,基底毎の重要度を考慮し,各単語ベ
クトルの要素の値には,単語の文書中での出現頻度に
値を掛けた値を使
用する.なお,情報検索では,ある一定値以上の類似度を持つ文書を抽出の対
象とするが,その値の選び方によって,再現率,適合率の値は変化する.そこ
で,検索の精度評価では,いずれの場合も,
値が最大となるよう類似度を
設定する.