適合率のマイクロ平均を求めると0.07(=110/1,519)であり,表と大きな差がある.これは,特定のレスに3つ組が大量に作られたた めである.
そこで,過剰な3つ組生成の問題を分析しよう.大量に3つ組の作成されたレスの例を図 6.1に示す.お土産情報には,分かりやすくするために下 線を引いた.
3つ組の作成を「 」,「 」,「 」全ての組み合わせで行うため, 3つ組が過剰に作成されていた.具体的には,レス48で出力された数は,「商品 名」2つ,「場所名」5つ,「評価情報」2つであった.3つ組を作る際,それぞ れに を加え,かつ,( , , )を除くので,3つ組は 53通り作成される.
さらに,レス49においては,集約を行う前は「場所名」として「会津」,「評価 情報」として「バターで焼いてて」,「中にこんにゃく」,「冷めてもウマー」, および「ウマー」の4つから3つ組が作成され,組み合わせは9通りとなるが,レス48と の集約により,組み合わせの空欄であった「商品名」および「場所名」にレス48 からの情報が全ての組み合わせで書き込まれることで組み合わせが増大し,93通りに増えてしまった(表6.1).
例えば, に(たこ焼き,大阪, ),(たこ焼き,八幡, )という2 つの3 つ組が含まれており, に( , ,ウマー),( , ,冷 めてもウマー)という2つの3つ組が含まれているので, は(たこ焼き,大阪,ウマー),(たこ焼き,八幡,ウマー), (たこ焼き,大阪, 冷めてもウマー),(たこ焼き,八幡,冷めてもウマー)というようにこれらの部 分からだけでも4つの3つ組に増える.