次へ: 目次 上へ: soturon6 戻る: soturon6 目次

概要

言語の意味理解の一つとして，言語表現から書き手や登場人物の情緒を推定する技術に期待が寄せられている．

これに対して，田中らと吾郷らは，日本語語彙大系[1]に，「情緒属性」として，判断条件，情緒名，情緒原因，および，情緒対象を追加することで，パターンベースの情緒解析の手法を示した[2][3]．情緒推定の方法は，もし，入力文と結合価パターンがマッチし，意味属性制約を充足し，かつ，判断条件が成立するならば，対応する情緒属性を出力するというものである．ここで，判断条件を常に成立すると仮定することで，用言の語義に基づく情緒推定が可能であり，ある程度の情緒推定が可能である．しかし，判断条件を常に成立すると仮定することで，過剰に情緒が推定されてしまう問題が発生した．

そこで，本研究では，以下の2つを行う． (1)判断条件の成立と不成立を機械学習した「判断情報知識ベース」を構築する． (2)情緒推定に本知識ベースを利用することは，過剰な推定の抑制に有効であるのか実験により評価する．

具体的に，(1)では，まず，Webから情緒の生起する原因となる文（以下，原因文）と本辞書のパターンとの照合により，引数に具体的な格要素が入った判断条件を獲得する．そのとき，結合価パターンの情緒属性セットに付随している情緒が，原因文に付属する感情表現の情緒極性（例．給料を貰ったので嬉しい）と一致する場合は，その判断条件にをカウントし，不一致の場合はをカウントする．その結果，引数の具体化された判断条件の接近／乖離の関係を，との割合でデータベースに蓄積することができる．の割合が多ければ，その判断条件は一般的に成立すると判定でき，情緒を推定する．逆に，の割合が多い場合は，情緒の推定を抑制する．

本知識ベースの構築に必要な原因文は，徳久らの手法[9]に習い，収集を行う．収集元データには，Kawaharaらの5億文Webコーパス[13]を使用し，「原因文＋接続表現＋感情表現」という言語モデルを用いて本コーパスから自動的に原因文を獲得する．獲得の手がかりとなる感情表現には，小林らの評価値表現辞書[4] から人手で抽出した414語の感情表現を使用する．原因文と感情表現を繋ぐ接続表現には，右記8種類の表現「ので，から，ため，て，のは，のが，ことは，ことが」のうち，曖昧性がなく，絶対数の多い「ので」を使用する．

(2)では，まず，テキストと本辞書を照合し，引数に具体的な格要素の入った判断条件を得る．次に，得た判断条件と引数をキーとして，本知識ベースを参照し，判断条件の成立と不成立を判定する．その際，判断条件の真偽閾値として $\theta$ を用いる． ≧ $\theta$ ならば判断条件成立と判定し，レコードに付与されている情緒を出力する．＜ $\theta$ ならば判断条件不成立と判定し，情緒《なし》を出力する．

情緒推定実験は，(1)で収集した原因文を5分割し，クロスバリデーション法を用いて行う．その際， $\theta$ の値を，0%，20%， 40%，60%，80%，100%と変化させながら実験する． $\theta$ ＝0の誤推定数をベースラインとし， $\theta$ の値による，誤推定数の変化を調査する．

以上の結果，(1)では，本コーパスより13,175文の原因文を獲得し，本知識ベースのレコード数は10,323となった．(2)では，ベースラインの誤推定数が2813 であったのに対し，本手法では，誤推定数が419まで減少することを確認した．また，誤推定の減少に伴い，情緒推定の適合率は56%から最大67%まで上昇することを確認した．

以上より，情緒推定に本知識ベースを利用することは，過剰な推定の抑制に有効であることを確認できた．

今後の課題は，本知識ベースの規模をさらに拡大し，さらなる情緒推定精度の向上を目指すことである．

平成23年3月9日