next up previous contents
次へ: 目次 上へ: sotsuron 戻る: sotsuron   目次

概要

言語の意味理解の一つとして,言語表現から登場人物や話者の情緒を推定する技術に期待が寄せられている.なぜなら,この技術はテキストマイニングとして応用できる可能性があるからである.例えば,ブログなどに蓄積されたテキストデータを情緒推定することにより,観光地の情報や,旅行者の気持ちや行動を分析するといったことが挙げられる.

田中らは,情緒推定へのアプローチの一つとして,「情緒生起原因に着目した手法」に着目した.この手法は,結合価パターン辞書を構築することで,情緒生起原因を明記した特徴(情緒原因)を用言の語義から解析し,情緒を推定する手法である[1].さらに,吾郷らは,不足する情緒原因の特徴を補うために,本辞書に「判断条件」を追加した[2].それに加えて,滝川らは,判断条件において情緒主と情緒対象の関係の方向性である「接近」と「乖離」の関係に注目し,辞書を改良した[3].野口らは,判断条件「保留」と付与された,判断条件が不明確なパターン1,600件に対し,再分析と補修を行った[6].本辞書を用いた情緒推定方法は,もし,入力文と結合価パターンがマッチし,意味属性制約を充足し,かつ,判断条件が成立するならば,対応する情緒属性として「情緒主」,「情緒対象」,「情緒名」を出力するというものである.しかし,この手法は,判断条件における格要素同士の関係を判定する際に,格要素に係る修飾語句を読み捨てている.例えば,「私は美味しいご飯を食べる。」という文も「私は不味いご飯を食べる。」という文も,修飾語句である「美味しい」,「不味い」が捨てられてしまい,同じ情緒が推定されてしまうという問題がある.そこで本研究では,修飾語句の評価極性を「好評極性」,「不評極性」および「極性なし」の3分類で捉え,それらを利用することで,修飾語句の意味に合わない情緒の推定を抑制するという改良を行う.

具体的には,まず,どのような名詞句がブログ文等で頻繁に用いられるかを調べるために,名詞句パターンを複数作成し,ブログ文コーパスに照合することで名詞句を抽出する.その結果得られた名詞句のうち,最も数が多い名詞句パターンを本研究で扱う.次に,名詞句の持つイメージを判断条件の真偽判定に利用するため,名詞句の評価極性を算出する.評価極性の算出にはTurneyらの $SO\mathchar \lq -score$を用い,共起頻度から好評極性か不評極性かを算出する.そして,「判断条件の接近/乖離の関係」と「名詞句の評価極性」を利用して判断条件の真偽判定を行う.判断条件が接近の関係かつ,名詞句が好評極性または,判断条件が乖離の関係かつ名詞句が不評極性ならば$T$と判定し,判断条件が接近の関係で名詞句が不評極性の時と,判断条件が乖離の関係で名詞句が好評極性の時は$F$と判定する.$F$と判定された場合は,その判断条件が成り立たないものとし,情緒を出力しないことにする.

改良した手法を評価するため,テスト文270文に人手で正解情緒タグを付与して正解データを作成する.次に,同テスト文を自動で情緒推定したものと比較し,精度の調査を行う.

調査の結果,テスト文270文に対し,従来手法(判断条件を不使用)で出力された情緒469個のうち一致したものは103個となった.一方,提案手法で出力された情緒465個のうち一致したものは103個となった.提案手法により4個の情緒が抑制され,従来手法に比べて精度が向上した.しかし,その向上はわずかであった.今後の課題は,本手法を,より複雑な文に適応させることである.



Sho Takemoto 平成24年3月13日