連鎖共起表現とは図1のαのように、原文データに現れる連続的な文字列のことである。
連鎖共起N-gram抽出方法とは、共通の連続的な文字列を、 度数に応じて統計的に抽出する方法である。 図1のように、ある文字列αの内部にある部分文字列βを 抽出する方法を無抑制型といい、 部分文字列をいっさい抽出しない方法を強抑制型という。 また、ある文字列αの内部にある部分文字列βが 一度αの外部で独立して抽出された場合に、αだけでなくβも 抽出する方法を弱抑制という。
私は毎日、朝七時に学校へ行く。 |
私は毎日、ジョギングをしながら学校へ行く。 |
↓
私は毎日、(2),学校へ行く(2)
(強抑制の場合)