離散共起N-gram抽出方法とは離れた場所に現れた共起する
連鎖文字列を度数ごとに、統計的に抽出する方法である。
共起した文字列のすべてのパターンを
抽出するのが無抑制、互いに異なる文字列のみ抽出
するのが弱抑制である。
上記の弱抑制に抽出する表現の先頭の文字列と末尾の文字列との間には、着目
する文字列が二回以上現れないものを抽出するのが強抑制である。
私は昨日そこでみんなと野球をした。 |
私は昨日わざわざそこへ野球をしに行った。 |
↓
私は昨日〜そこ〜野球をし(2)
(強抑制の場合)
このようにして、離散共起抽出方法は長い文における 離れた場所にある表現を抽出することができるため、重文・複文における表現も 発見可能である。