next up previous contents
Next: 離散共起N-gram抽出方法 Up: 定型的言い回しの抽出方法 Previous: 定型的言い回しの抽出方法

連鎖共起N-gram抽出方法

連鎖共起表現とは図1のαのように、原文データに現れる連続的な文字列のことである。


  
Figure: 連鎖共起表現の例
\includegraphics[width=10cm,keepaspectratio]{rensa2.eps}

連鎖共起N-gram抽出方法とは、共通の連続的な文字列を、 度数に応じて統計的に抽出する方法である。 図1のように、ある文字列αの内部にある部分文字列βを 抽出する方法を無抑制型といい、 部分文字列をいっさい抽出しない方法を強抑制型という。 また、ある文字列αの内部にある部分文字列βが 一度αの外部で独立して抽出された場合に、αだけでなくβも 抽出する方法を弱抑制という。



(例1)
私は毎日、朝七時に学校へ行く。
私は毎日、ジョギングをしながら学校へ行く。






私は毎日、(2),学校へ行く(2)
(強抑制の場合)



連鎖共起抽出方法はまとまった表現をとるため、 単文の表現を発見するのに適して いる。






2000-04-09