これに対して,田中らと吾郷らは,日本語語彙大系[1]に, 「情緒属性」として,判断条件,情緒名,情緒原因,および, 情緒対象を追加することで,パターンベースの情緒解析の手 法を示した[2][3]. 情緒推定の方法は,もし,入力文と結合価パターンがマッチし, 意味属性制約を充足し,かつ,判断条件が成立するならば, 対応する情緒属性を出力するというものである. ここで,判断条件を常に成立すると仮定することで,用言の語義に基づく情 緒推定が可能であり,ある程度の 情緒推定が可能である. しかし,判断条件を常に成立すると仮定することで, 過剰に情緒が推定されてしまう問題が発生した.
そこで,本研究では,以下の2つを行う. (1)判断条件の成立と不成立を機械学習した「判断情報知識ベース」を構築する. (2)情緒推定に本知識ベースを利用することは, 過剰な推定の抑制に有効であるのか実験により評価する.
具体的に,(1)では, まず,Webから情緒の生起する原因となる文 (以下,原因文)と本辞書のパターンとの照合により,引数に具体的な格要素が 入った判断条件を獲得する.そのとき,結合価パターンの情緒属性セットに付随 している情緒が,原因文に付属する感情表現の情緒極性 (例.給料を貰ったので嬉しい)と一致する 場合は,その判断条件に をカウントし,不一致の場合はをカウントする. その結果, 引数の具体化された 判断条件の接近/乖離の関係を, との割合でデータベースに蓄積することができる. の割合が多ければ, その判断条件は一般的に成立すると判定でき,情緒を推定する. 逆に,の割合が多い場合は,情緒の推定を抑制する.
本知識ベースの構築に必要な原因文は,徳久らの手法[9]に習い, 収集を行う.収集元データには,Kawaharaらの5億文Webコーパス[13]を 使用し,「原因文+接続表現+感情表現」という言語モデルを用いて本コーパス から自動的に原因文を獲得する. 獲得の手がかりとなる感情表現には, 小林らの評価値表現辞書[4] から人手で抽出した414語の感情表現を使用する. 原因文と感情表現を繋ぐ接続表現には,右記8種類の表現 「ので,から,ため,て,のは,のが,こ とは,ことが」のうち,曖昧性がなく,絶対数の多い「ので」を使用する.
(2)では, まず,テキストと本辞書を照合し,引数に具体的な格要素の入った判断 条件を得る.次に,得た判断条件と引数をキーとして,本知識ベースを参照し, 判断条件の成立と不成立を判定する. その際,判断条件の真偽閾値としてを用いる. ≧ならば判断条件成立と判定し,レコードに付与されている情緒を出力 する.<ならば判断条件不成立と判定し,情緒《なし》を出力する.
情緒推定実験は,(1)で収集した原因文を5分割し,クロスバリデーション法を用いて 行う.その際,の値を,0%,20%, 40%,60%,80%,100%と変化させながら実験 する. =0の誤推定数をベースラインとし,の値による, 誤推定数の変化を調査する.
以上の結果,(1)では,本コーパスより13,175文の原因文を獲得し,本知識ベー スのレコード数は10,323となった.(2)では,ベースラインの誤推定数が2813 であったのに対し,本手法では,誤推定数が419まで減少することを確認した. また,誤推定の減少に伴い,情緒推定の 適合率は56%から最大67%まで上昇することを確認した.
以上より,情緒推定に本知識ベースを利用することは,過剰な推定の抑制に有効 であることを確認できた.
今後の課題は,本知識ベースの規模をさらに拡大し,さらなる情緒推定精度の向 上を目指すことである.