next up previous contents
次へ: タグ付与の方法 上へ: タグ付きテキスト対話コーパスの構築 戻る: 対話行為タグの種類   目次

タグ付与の対象

タグ付与の対象は,テキスト対話コーパスとする. テキスト対話は,漫画『ちびまる子ちゃん』の第1巻から第10巻までを 抽出したものであり,表情タグ・情緒タグの付与されたコーパス[7]に 対して,対話行為タグを付与する. 漫画に描かれる出来事は架空の事柄であるが, 使われる日本語は,一部の登場人物を除いて自然なものであると言えるので, 言語表現の分析の対象となりうる.

コーパスの規模は,ナレータを除いた台詞が29,537文であり, 表情タグが17,676件,情緒タグが20,891件付与されている. 表情タグ・情緒タグは,漫画のコマに登場する人物の単位に付与されている.

表情タグは,次の8種類である.

〈幸福〉,〈悲しみ〉,〈嫌悪〉, 〈驚き〉,〈恐れ〉,〈怒り〉,〈背後〉,〈普通〉

Ekmanの表情分類[11]に従い6種類が採用され, 漫画の描き方の特徴に着目して〈背後〉のタグが設けられた.

情緒タグは,次の9種類である.

《喜び》,《悲しみ》,《好ましい》,《嫌だ》,《驚き》, 《期待》,《恐れ》,《怒り》,《なし》

この分類は,Plutchikの8つの基本情緒[12]を参考にした. Plutchikの分類は感情語彙の分類によるものであるため, 言語処理に相性が良いものと思われる.

付与されている情緒タグの内訳を表2に示す.


表 2: 情緒タグの件数
情緒名 件数 割合
《喜び》 4,895 23.4%
《嫌だ》 3,511 16.8%
《期待》 2,952 14.1%
《驚き》 2,347 11.2%
《恐れ》 2,156 10.3%
《悲しみ》 1,727 8.3%
《怒り》 1,522 7.3%
《なし》 1,101 5.3%
《好ましい》 680 3.3%
合計 20,891  



平成21年3月10日