Next: 離散型共起表現
Up: N-gram統計処理による共起表現
Previous: N-gram統計処理による共起表現
原文データに現れる文字列をすべて抽出する方法である。図1のα
のように原文中から一度抽出された文字列の内部に含まれる部分文字列を抽出
するか否かによって次の3つの抑制法がある。部分文字列とは、図中のβのよ
うな文字列を指し、γのような文字列は含まない。
(実験では、2文字以上、頻度2以上の文字列を抽出対象とした)
- 無抑制型 部分文字列でも抽出対象とする。
- 弱抑制型 部分文字列でも、他の場所で独立して出現していれ
ば、抽出の対象とする。
図2を例として説明する。1、2の
文があった場合、BCDEFは2回出現しているので抽出される。ここで、1、2の
文しか無い場合、BCはBCDEFの文字列の内部に含まれている部分文字列であ
るため、抽出対象とならない。しかし、3の文がある場合は、独立して出現
しているので、抽出対象となる。
- 強抑制型 部分文字列は一切、抽出の対象としない。
MatobaKazuyuki
平成11年4月15日