next up previous contents
次へ: 収集器の実装 上へ: 共起頻度に基づく収集 戻る: 共起頻度に基づく収集   目次

収集方法

3.2節の2つ組について,$SO$-$Score$を算出する.
手順2-1 Webコーパスから,「良い」(Pos.)の出現 する文数,および「悪い」(Neg.)の出現する文数をそれぞれ求める.
手順2-2 Webコーパスから算出目標の2つ組を含む文を 抽出する.その中で,「良い」と共起する文数,および「悪い」と共起する文数をそれぞれ求める.
手順2-3 以上の文数を用いて2つ組の $SO$-$Score$を算出する.また,4.1式は4.2式より4.3式のように式変形できる. これにより,手順2-1,手順2-2で求めた4つの出現文数を用いて算出する.

$\displaystyle {\it SO}{\mbox{-}}{\it Score}(t) = {\it PMI}(t,{\mbox {\lq\lq }}良い{\mbox {''}}) - {\it
PMI}(t,{\mbox {\lq\lq }}悪い{\mbox {''}})$     (4.1)


$\displaystyle {\it PMI}(a,b) = \log_{2} \frac{p(a,b)}{p(a)p(b)}$     (4.2)


$\displaystyle {\it SO}{\mbox{-}}{\it Score}(t) = \log_{2} \frac{{\it N}(悪い)*{...
...{\lq\lq }}
良い{\mbox {''}})}{{\it N}(良い)*{\it
N}(t,{\mbox {\lq\lq }}悪い{\mbox {''}})}$     (4.3)

ただし,手順2-2での共起頻度が低い場合, 統計的な信頼性が得られないので,$SO$-$Score$は算出できない. 本研究では,文献[8]にならい, 「良い」,「悪い」の共起する文数の和が5以上の2つ組を扱うことにする.


平成24年3月20日