next up previous contents
Next: 日本語共起表現辞書の作成方法 Up: N-gram統計処理による共起表現 Previous: 連鎖型共起表現

離散型共起表現

原文データの離れた場所に現れ、共起する2つ以上の文字列の組を抽出する方 法で、共起の仕方により、次の3つのタイプがある。図3を例とした 場合の抽出の組合わせを表1に示す。(実験では、頻度2以上 の共起する組を抽出対象とした)


  
図 3: 離散型共起表現の例
4#4

3から離散共起表現を抽出した場合、抑制の仕方を表 1に示す。図中の「○」は、左の表現が抽出されることを示 している。

例えば、(1)…(2)…(3)の共起表現は、どの抑制法においても抽出される。(1)… (3)…(2)の共起表現は、無抑制、弱抑制の場合にのみ抽出され、強抑制の場合 には抽出されない。

弱抑制では、「抽出する文字列は互いに異なるもののみ抽出する」という条件 のため、(1)…(2)…(3)のような共起表現は抽出するが、(1)…(2)…(2)のよう に同じ文字列を含む共起表現は抽出されない。

また、強抑制では、弱抑制に加えて「抽出する表現の先頭の文字列と末尾の文 字列との間には、着目する文字列が2回以上現れないものを抽出する」という 条件のため、(1)…(2)…(3)のような共起表現は抽出するが、(1)…(3)…(2)の ように抽出する表現の先頭の文字列と末尾の文字列との間に、(3)のような着 目する文字列が現われている共起表現は抽出されない。


 
表 1: 離散型共起表現の組み合わせの例
抑制型 無抑制 弱抑制 強抑制
(1)…(1)…(1)    
(1)…(1)…(2)    
(1)…(1)…(3)    
(1)…(2)…(1)    
(1)…(2)…(2)    
(1)…(2)…(3)
(1)…(3)…(1)    
(1)…(3)…(2)  
(1)…(3)…(3)    
(2)…(1)…(1)    
(2)…(1)…(2)    
(2)…(1)…(3)  
(2)…(2)…(1)    
(2)…(2)…(2)    
(2)…(2)…(3)    
(2)…(3)…(1)
(2)…(3)…(2)    
(2)…(3)…(3)    
(3)…(1)…(1)    
(3)…(1)…(2)
(3)…(1)…(3)    
(3)…(2)…(1)  
(3)…(2)…(2)    
(3)…(2)…(3)    
(3)…(3)…(1)    
(3)…(3)…(2)    
(3)…(3)…(3)    


next up previous contents
Next: 日本語共起表現辞書の作成方法 Up: N-gram統計処理による共起表現 Previous: 連鎖型共起表現

MatobaKazuyuki 平成11年4月15日