next up previous contents
次へ: 品詞の置き換え 上へ: パターンの抽出方法 戻る: 連鎖型共起表現と離散型共起表現   目次

連鎖共起表現$ N $-gram統計処理方法

連鎖共起表現$ N $-gram統計処理方法とは、例1の「てきた」のように、原文デー タに現れる共通の連鎖型共起表現を抽出する方法である。
 例1では、「てきた」の内部の「てき」や「きた」も共通の連続的な文字列で ある。このように、一度抽出された文字列の内部に含まれる文字列を部分文字列 という。この部分文字列の抽出方法には、3つの方法がある。

 例1から抽出される文字列を以下に示す。

 弱抑制型で部分文字列が抽出される場合は、例3の「きた」のように、部分文 字列が他の場所に独立している場合である。例3では、「てきた」、「きた」が 抽出される。「てき」は「てきた」の内部だけに含まれているので抽出されない。

(例3)
  歩いてきた
  走ってきた
  春がきた



平成14年4月17日