next up previous contents
次へ: ブログからの長所情報の抽出 上へ: 分類で用いる技術 戻る: 用言の意味解析   目次

単語(名詞)の特徴度

文書検索における関数に,Okapi BM25がある.Okapi BM25は,複数のキーワード から成る検索クエリ$Q$に対して,文書のスコアを出す関数である[8]. 文書$D$とキーワード$q$とによるスコア$score(D, q)$は,次の式で求める.
$\displaystyle score(D, Q) = \sum^{}_{q \in Q}s(D, q)$     (2.1)


$\displaystyle s(D, q) = IDF(q) \cdot \frac{f(q, D) \cdot (k + 1)}{f(q, D) + k \cdot
(1 - b + b \cdot \frac{\vert D\vert}{avgdl})}$     (2.2)


$\displaystyle IDF(q) = \log \frac{N-n(q)+0.5}{n(q)+0.5}$     (2.3)

ここで,$f(q, D)$$D$における$q$の出現頻度,$n(q)$$q$を含む文書数, $\vert D\vert$は文書$D$の長さ,$avgdl$は全文書における平均長,$N$は全文書数である. $k$$b$は,定数である.



平成23年3月1日