次へ: 収集器の実装
上へ: 共起頻度に基づく収集
戻る: 共起頻度に基づく収集
目次
3.2節の2つ組について,
-
を算出する.
手順2-1 Webコーパスから,「良い」(Pos.)の出現
する文数,および「悪い」(Neg.)の出現する文数をそれぞれ求める.
手順2-2 Webコーパスから算出目標の2つ組を含む文を
抽出する.その中で,「良い」と共起する文数,および「悪い」と共起する文数をそれぞれ求める.
手順2-3 以上の文数を用いて2つ組の
-
を算出する.また,4.1式は4.2式より4.3式のように式変形できる.
これにより,手順2-1,手順2-2で求めた4つの出現文数を用いて算出する.
![$\displaystyle {\it SO}{\mbox{-}}{\it Score}(t) = {\it PMI}(t,{\mbox {\lq\lq }}良い{\mbox {''}}) - {\it
PMI}(t,{\mbox {\lq\lq }}悪い{\mbox {''}})$](img47.png) |
|
|
(4.1) |
![$\displaystyle {\it PMI}(a,b) = \log_{2} \frac{p(a,b)}{p(a)p(b)}$](img48.png) |
|
|
(4.2) |
![$\displaystyle {\it SO}{\mbox{-}}{\it Score}(t) = \log_{2} \frac{{\it N}(悪い)*{...
...{\lq\lq }}
良い{\mbox {''}})}{{\it N}(良い)*{\it
N}(t,{\mbox {\lq\lq }}悪い{\mbox {''}})}$](img49.png) |
|
|
(4.3) |
ただし,手順2-2での共起頻度が低い場合,
統計的な信頼性が得られないので,
-
は算出できない.
本研究では,文献[8]にならい,
「良い」,「悪い」の共起する文数の和が5以上の2つ組を扱うことにする.
平成24年3月20日