next up previous contents
次へ: 原因文のクリーニング 上へ: 原因文の収集方法 戻る: 原因文の収集方法   目次

使用データ

学習データには, Kawaharaらの5億文Webコーパス[13]を使用し, 図4.1に示す 言語モデルを用いて本コーパス から自動的に原因文を獲得する.

獲得の手がかりとなる感情表現には, 小林らの評価値表現辞書[4] から人手で抽出した414語の感情表現を用いる.抽出した情緒極性毎の 数と例を表4.1に示す. 8種類の接続表現(ので,から,ため,て,のは,のが,こ とは,ことが)のうち,5億文Webコーパスにおける絶対数と, 接続表現の後節に感情表現が来る可能性が高いことを 考慮し,「ので」を用いる.


図 4.1: 原因文を獲得するための言語モデル
\includegraphics[scale=0.5, clip]{gengopt.eps}


表 4.1: 感情表現数と例
情緒極性 感情表現の例
《Pos》 楽しい,好き,うれしい 139
《Neg》 嫌,怒る,恐い 266
《Sur》 驚き,驚く,びっくり 9
414



平成23年3月9日