ある評価表現の極性評価値
-
(
)は以下の式より算出する.こ
こでPMI(Pointwise Mutual Information)とは,2つの語句間の共起を図る尺度を
表す.
![]() |
(2.1) |
![]() |
(2.2) |
p(,
)はコーパス内において単語
と単語
が同一文で共起する確率,
p(
)は単語
を含む文がコーパス内で出現する確率を表している.
-
(
)で評価表現
が``Excellent''と多く共起しやすければ,正
に大きい値をとり,``Poor''と多く共起しやすければ逆に負に大きい値をとる.
確率が0となる語句に関しては,
に
が入ってしまうのを避けるために,
Turneyらは出現頻度に
を足している.また,
-
を算出する際に,
好評文と不評文での出現頻度が共に4より小さい評価表現は有効なデータとして
扱わないこととしている.