ある評価表現の極性評価値-()は以下の式より算出する.こ こでPMI(Pointwise Mutual Information)とは,2つの語句間の共起を図る尺度を 表す.
(2.1) |
(2.2) |
p(,)はコーパス内において単語と単語が同一文で共起する確率, p()は単語を含む文がコーパス内で出現する確率を表している.
-()で評価表現が``Excellent''と多く共起しやすければ,正 に大きい値をとり,``Poor''と多く共起しやすければ逆に負に大きい値をとる. 確率が0となる語句に関しては,にが入ってしまうのを避けるために, Turneyらは出現頻度にを足している.また,-を算出する際に, 好評文と不評文での出現頻度が共に4より小さい評価表現は有効なデータとして 扱わないこととしている.