next up previous contents
Next: アルゴリズム Up: 共起表現抽出の考え方 Previous: 表現種別に着目した置き換えと品詞情報の利用

相互情報量の利用

上記の方法では、頻度の高い表現が上位に現われることになるが、離散共起表 現においては頻度が高いからといって、定型的な言い回しとは限らないので、 相互情報量を適用し表現を絞り込む。相互情報量により、表現を表現の結び付 きの強さを評価する。相互情報量の値により順位づけを行なうことによって、 出現頻度に関係なく、結び付きの強い言い回しが得られるようになる。

2に、相互情報量利用の例を示す。

表中の離散共起表現の結果では、「もし…である」のほうが頻度は高いが、相 互情報量を計算すると、「もし…なら」のほうが高くなり上位にくる。これは、 「もし…である」の「である」は5,000回出現していて、そのうち90回が「も し」と共起しているが、「もし…なら」の「なら」は200回出現して、そのう ち80回が「もし」と共起しているためである。つまり、「なら」のほうが「で ある」に比べてより「もし」と強く結び付いているためである。


 
表 2: 相互情報量利用による順位変化の例
連鎖共起表現
順位 表現 頻度
1 である 5,000
2 なら 200
3 もし 100

離散共起表現
順位 表現 頻度
1 もし … である 90
2 もし … なら 80
5#5
相互情報量利用
順位 表現 相互情報量
1 もし … なら 9.36
2 もし … である 4.89


相互情報量は表3の評価式を用いて評価する。


 
表 3: 相互情報量の評価式
6#6 = 7#7
     
  = 8#8

9#9 : 10#10 が共起する離散共起頻度
f(xm) : xm の連鎖共起頻度
Nc : 離散共起の総頻度
Nf : 連鎖共起の総頻度


next up previous contents
Next: アルゴリズム Up: 共起表現抽出の考え方 Previous: 表現種別に着目した置き換えと品詞情報の利用

MatobaKazuyuki 平成11年4月15日