次へ: ブログからの長所情報の抽出
上へ: 分類で用いる技術
戻る: 用言の意味解析
目次
文書検索における関数に,Okapi BM25がある.Okapi BM25は,複数のキーワード
から成る検索クエリ
に対して,文書のスコアを出す関数である[8].
文書
とキーワード
とによるスコア
は,次の式で求める.
![$\displaystyle score(D, Q) = \sum^{}_{q \in Q}s(D, q)$](img5.png) |
|
|
(2.1) |
![$\displaystyle s(D, q) = IDF(q) \cdot \frac{f(q, D) \cdot (k + 1)}{f(q, D) + k \cdot
(1 - b + b \cdot \frac{\vert D\vert}{avgdl})}$](img6.png) |
|
|
(2.2) |
![$\displaystyle IDF(q) = \log \frac{N-n(q)+0.5}{n(q)+0.5}$](img7.png) |
|
|
(2.3) |
ここで,
は
における
の出現頻度,
は
を含む文書数,
は文書
の長さ,
は全文書における平均長,
は全文書数である.
と
は,定数である.
平成23年3月1日