上記の方法では、頻度の高い表現が上位に現われることになるが、離散共起表 現においては頻度が高いからといって、定型的な言い回しとは限らないので、 相互情報量を適用し表現を絞り込む。相互情報量により、表現を表現の結び付 きの強さを評価する。相互情報量の値により順位づけを行なうことによって、 出現頻度に関係なく、結び付きの強い言い回しが得られるようになる。
表2に、相互情報量利用の例を示す。
表中の離散共起表現の結果では、「もし…である」のほうが頻度は高いが、相 互情報量を計算すると、「もし…なら」のほうが高くなり上位にくる。これは、 「もし…である」の「である」は5,000回出現していて、そのうち90回が「も し」と共起しているが、「もし…なら」の「なら」は200回出現して、そのう ち80回が「もし」と共起しているためである。つまり、「なら」のほうが「で ある」に比べてより「もし」と強く結び付いているためである。
相互情報量は表3の評価式を用いて評価する。
9#9 | : | 10#10 が共起する離散共起頻度 |
f(xm) | : | xm の連鎖共起頻度 |
Nc | : | 離散共起の総頻度 |
Nf | : | 連鎖共起の総頻度 |