next up previous
次へ: 実験結果 上へ: 実験 戻る: 評価のパラメータ

実験の方法

検索要求として新聞記事が与えられたとき,類似した新聞記事を検索すること を考え,「主題が一致している新聞記事」を正解とする.具体的には,主題が 一致している記事(ランクA)のうちの1つを検索要求用の記事に使用し,デー タベース内に収録された5,079件の記事の中から残りのランクAの記事を検索す る.検索要求用の記事を替えながら,この手順を90回繰り返し,平均の検索精 度で評価する.従来の単語を基底とした文書ベクトル空間法による実験では,データベース記事 全体を対象に使用されている名詞の$tf \cdot idf$ 値を求め,その値の大き い順に基底とする名詞を決定する.また,基底毎の重要度を考慮し,各単語ベ クトルの要素の値には,単語の文書中での出現頻度に$idf$値を掛けた値を使 用する.なお,情報検索では,ある一定値以上の類似度を持つ文書を抽出の対 象とするが,その値の選び方によって,再現率,適合率の値は変化する.そこ で,検索の精度評価では,いずれの場合も,$F$値が最大となるよう類似度を 設定する.



平成15年4月18日