Simpson係数の特徴について

Jaccard係数,Dice係数,Simpson係数の中で最も大きな違いを持つのはSimpson係数である. Simpson係数は,「片方の集合がもう片方の集合の真部分集合である時,類似度が最大になる」という特徴がある. この特徴について図4.1を例に考える. かっこの中は集合の要素数である.
Figure: 真部分集合の例
182#182

4.1の状態で各種係数を用いて類似度を求めると表4.1に示す数値となる. 図4.1が示すように,JaccardとDiceにほぼ差は出ないが,Simpsonは類似度1.0となる.


Table:4.1の状態での各種係数の数値
Jaccard 183#183
Dice 184#184
Simpson 185#185