Jaccard係数,Dice係数,Simpson係数の中で最も大きな違いを持つのはSimpson係数である.
Simpson係数は,「片方の集合がもう片方の集合の真部分集合である時,類似度が最大になる」という特徴がある.
この特徴について図4.1を例に考える.
かっこの中は集合の要素数である.
図4.1の状態で各種係数を用いて類似度を求めると表4.1に示す数値となる.
図4.1が示すように,JaccardとDiceにほぼ差は出ないが,Simpsonは類似度1.0となる.
Table:
図4.1の状態での各種係数の数値
Jaccard |
183#183 |
Dice |
184#184 |
Simpson |
185#185 |