next up previous contents
次へ: 提案手法 上へ: 関連研究 戻る: 非文法的かつ断片化されたテキストの頑健な分類   目次


Okapi-BM25

Okapi-BM25 は,文書検索に使用されるものであり,クエリ$ Q$ に対する文書$ D$ の関連度を順位付ける機能である. 次の式で関連度 $ score$ を計算する.
$\displaystyle \mathit{score}(D,Q)$ $\displaystyle =$ $\displaystyle \sum^{}_{q \in Q} s_{\mathit{BM25}}(D,q)$ (2.2)
$\displaystyle \vspace{5mm}
s_{\mathit{BM25}}(D,q)$ $\displaystyle =$ $\displaystyle \mathit{IDF}(q)\cdot\frac{f(q,D)\cdot(k + 1)}{f(q,D)+k\cdot(1-b+b\cdot\frac{\vert D\vert}{\mathit{avgdl}})}$ (2.3)
$\displaystyle \vspace{5mm}
\mathit{IDF}(q)$ $\displaystyle =$ $\displaystyle \log \frac{N-n(q)+0.5}{n(q)+0.5}$ (2.4)

ここで,$ f(q,D)$ は,文書 $ D$ における単語 $ q$ の出現頻度,$ \vert D\vert$ は文書$ D$ の文書長, $ \mathit{avgdl}$ は収集されたテキストの平均文書長である.$ k$$ b$ は自由なパラメータであり一般的には$ k = 2.0$$ b=0.75$ とされる.



平成23年4月13日