次へ: 品詞の置き換え
上へ: パターンの抽出方法
戻る: 連鎖型共起表現と離散型共起表現
  目次
連鎖共起表現-gram統計処理方法とは、例1の「てきた」のように、原文デー
タに現れる共通の連鎖型共起表現を抽出する方法である。
例1では、「てきた」の内部の「てき」や「きた」も共通の連続的な文字列で
ある。このように、一度抽出された文字列の内部に含まれる文字列を部分文字列
という。この部分文字列の抽出方法には、3つの方法がある。
- 無抑制型 ・・・ 部分文字列も抽出する。
- 強抑制型 ・・・ 部分文字列は抽出しない。
- 弱抑制型 ・・・ 部分文字列が他の場所に独立していれば、抽出する。し
かし、一度抽出された文字列の内部だけに含まれているときは、抽出しな
い。
例1から抽出される文字列を以下に示す。
- 無抑制型 ・・・ 「てきた」の他、部分文字列である「てき」、「きた」
が抽出される。
- 強抑制型 ・・・ 部分文字列である「てき」、「きた」は抽出されず、
「てきた」だけが抽出される。
- 弱抑制型 ・・・ 部分文字列である「てき」、「きた」は「てきた」の内
部だけに含まれているので抽出されず、「てきた」だけが抽出される。
弱抑制型で部分文字列が抽出される場合は、例3の「きた」のように、部分文
字列が他の場所に独立している場合である。例3では、「てきた」、「きた」が
抽出される。「てき」は「てきた」の内部だけに含まれているので抽出されない。
(例3)
歩いてきた
走ってきた
春がきた
平成14年4月17日