next up previous contents
次へ: 因果表現文からの収集 上へ: 関連研究 戻る: Webから獲得する感情生起要因コーパスと感情極性の推定   目次

Turneyらの評価極性の分類

情緒生起要因を収集する見地とは異なるが,評価極性を分類する処理について議 論されている研究がなされている. その中でも,コーパスから得られる共起情報を用いて語句の評価極性値(評価極 性の傾向を示す値)を判定する手法を Turney[8]は考えた.国語辞書などのエントリ情報を用いないため, 見出し語単位やエントリ単位,複数語からなる句に対しても評価極性値を判定す ることができる.主に,好評表現(Positive表現)と不評表現(Negative表現)の出 現比率を用い,好評表現の方が多い場合は好評,逆なら不評とした. Turneyは $SO$-$Score$を算出することで,これを示した.

ある評価表現$t$の極性評価値$So$-$Score$($t$)は以下の式より算出する.こ こでPMI(Pointwise Mutual Information)とは,2つの語句間の共起を図る尺度を 表す.


$\displaystyle {\it SO}{\mbox{-}}{\it Score}(t) = {\it PMI}(t,{\mbox {\lq\lq }}Excellent{\mbox {''}}) - {\it
PMI}(t,{\mbox {\lq\lq }}Poor{\mbox {''}})$     (2.1)


$\displaystyle {\it PMI}(a,b) = \log_{2} \frac{p(a,b)}{p(a)*p(b)}$     (2.2)

p($a$,$b$)はコーパス内において単語$a$と単語$b$が同一文で共起する確率, p($x$)は単語$x$を含む文がコーパス内で出現する確率を表している.

$So$-$Score$($t$)で評価表現$t$が``Excellent''と多く共起しやすければ,正 に大きい値をとり,``Poor''と多く共起しやすければ逆に負に大きい値をとる. 確率が0となる語句に関しては,$log$$0$が入ってしまうのを避けるために, Turneyらは出現頻度に$0.01$を足している.また,$So$-$Score$を算出する際に, 好評文と不評文での出現頻度が共に4より小さい評価表現は有効なデータとして 扱わないこととしている.



平成24年3月20日