next up previous contents
Next: 置き換えによる表現抽出 Up: 定型的言い回しの抽出方法 Previous: 連鎖共起N-gram抽出方法

離散共起N-gram抽出方法

離散共起表現とは図2のように同一文中の離れた場所に 現れる連鎖文字列が共起した表現のことである。


  
Figure: 離散共起表現の例

\includegraphics[width=10cm,keepaspectratio]{risan.eps}


離散共起N-gram抽出方法とは離れた場所に現れた共起する 連鎖文字列を度数ごとに、統計的に抽出する方法である。
共起した文字列のすべてのパターンを 抽出するのが無抑制、互いに異なる文字列のみ抽出 するのが弱抑制である。 上記の弱抑制に抽出する表現の先頭の文字列と末尾の文字列との間には、着目 する文字列が二回以上現れないものを抽出するのが強抑制である。



(例2)

私は昨日そこでみんなと野球をした。

私は昨日わざわざそこへ野球をしに行った。


私は昨日〜そこ〜野球をし(2)
(強抑制の場合)

このようにして、離散共起抽出方法は長い文における 離れた場所にある表現を抽出することができるため、重文・複文における表現も 発見可能である。




2000-04-09