原文データの離れた場所に現れ、共起する2つ以上の文字列の組を抽出する方 法で、共起の仕方により、次の3つのタイプがある。図3を例とした 場合の抽出の組合わせを表1に示す。(実験では、頻度2以上 の共起する組を抽出対象とした)
図3から離散共起表現を抽出した場合、抑制の仕方を表 1に示す。図中の「○」は、左の表現が抽出されることを示 している。
例えば、(1)…(2)…(3)の共起表現は、どの抑制法においても抽出される。(1)… (3)…(2)の共起表現は、無抑制、弱抑制の場合にのみ抽出され、強抑制の場合 には抽出されない。
弱抑制では、「抽出する文字列は互いに異なるもののみ抽出する」という条件 のため、(1)…(2)…(3)のような共起表現は抽出するが、(1)…(2)…(2)のよう に同じ文字列を含む共起表現は抽出されない。
また、強抑制では、弱抑制に加えて「抽出する表現の先頭の文字列と末尾の文 字列との間には、着目する文字列が2回以上現れないものを抽出する」という 条件のため、(1)…(2)…(3)のような共起表現は抽出するが、(1)…(3)…(2)の ように抽出する表現の先頭の文字列と末尾の文字列との間に、(3)のような着 目する文字列が現われている共起表現は抽出されない。
抑制型 | 無抑制 | 弱抑制 | 強抑制 |
(1)…(1)…(1) | ○ | ||
(1)…(1)…(2) | ○ | ||
(1)…(1)…(3) | ○ | ||
(1)…(2)…(1) | ○ | ||
(1)…(2)…(2) | ○ | ||
(1)…(2)…(3) | ○ | ○ | ○ |
(1)…(3)…(1) | ○ | ||
(1)…(3)…(2) | ○ | ○ | |
(1)…(3)…(3) | ○ | ||
(2)…(1)…(1) | ○ | ||
(2)…(1)…(2) | ○ | ||
(2)…(1)…(3) | ○ | ○ | |
(2)…(2)…(1) | ○ | ||
(2)…(2)…(2) | ○ | ||
(2)…(2)…(3) | ○ | ||
(2)…(3)…(1) | ○ | ○ | ○ |
(2)…(3)…(2) | ○ | ||
(2)…(3)…(3) | ○ | ||
(3)…(1)…(1) | ○ | ||
(3)…(1)…(2) | ○ | ○ | ○ |
(3)…(1)…(3) | ○ | ||
(3)…(2)…(1) | ○ | ○ | |
(3)…(2)…(2) | ○ | ||
(3)…(2)…(3) | ○ | ||
(3)…(3)…(1) | ○ | ||
(3)…(3)…(2) | ○ | ||
(3)…(3)…(3) | ○ |