next up previous contents
Next: 言語解析力の問題 Up: 過剰な3つ組が生成される問題 Previous: 過剰な3つ組が生成される問題   目次

集約による3つ組の増大する問題

適合率のマイクロ平均を求めると0.07(=110/1,519)であり,表[*]と大きな差がある.これは,特定のレスに3つ組が大量に作られたた めである.

そこで,過剰な3つ組生成の問題を分析しよう.大量に3つ組の作成されたレスの例を図 6.1に示す.お土産情報には,分かりやすくするために下 線を引いた.


図 6.1: 3つ組大量レス
\begin{figure}\begin{center}
{\footnotesize
\begin{tabular}{l}
\hline
48 :つ...
...なんて食え\\ ねえ。
\\
\hline
\end{tabular}}\end{center}\end{figure}

3つ組の作成を「 $ {\underline {商品名}_{S}}$ 」,「 $ {\underline {場所
名}_{L}}$ 」,「 $ {\underline {評価情報}_{E}}$ 」全ての組み合わせで行うため, 3つ組が過剰に作成されていた.具体的には,レス48で出力された数は,「商品 名」2つ,「場所名」5つ,「評価情報」2つであった.3つ組を作る際,それぞ れに$ \phi$ を加え,かつ,($ \phi$ , $ \phi$ , $ \phi$ )を除くので,3つ組は $ 3\times6\times3-1=$ 53通り作成される.

さらに,レス49においては,集約を行う前は「場所名」として「会津」,「評価 情報」として「バターで焼いてて」,「中にこんにゃく」,「冷めてもウマー」, および「ウマー」の4つから3つ組が作成され,組み合わせは9通りとなるが,レス48と の集約により,組み合わせの空欄であった「商品名」および「場所名」にレス48 からの情報が全ての組み合わせで書き込まれることで組み合わせが増大し,93通りに増えてしまった(表6.1).

例えば,$ t_1$ に(たこ焼き,大阪,$ \phi$ ),(たこ焼き,八幡,$ \phi$ )という2 つの3 つ組が含まれており,$ t_2$ に($ \phi$ $ \phi$ ,ウマー),($ \phi$ $ \phi$ ,冷 めてもウマー)という2つの3つ組が含まれているので,$ t_3$ は(たこ焼き,大阪,ウマー),(たこ焼き,八幡,ウマー), (たこ焼き,大阪, 冷めてもウマー),(たこ焼き,八幡,冷めてもウマー)というようにこれらの部 分からだけでも4つの3つ組に増える.



表 6.1: 3つ組の増加する様子
レス番号 集約の有無 3つ組数
48 53
49 9
49 93



2013-02-23