next up previous contents
次へ: 目次 上へ: soturon 戻る: soturon   目次

概要

言語の意味理解の一つとして,言語表現から書き手や登場人物の情緒を推 定する技術に期待が寄せられている. 情緒推定の手法は,パターン辞書を用いる手法や機械学習を用いる手法がある. これらの手法は,テキストに例えば「嬉しい」など直接的に情緒が表現されなく ても, 情緒生起原因を根拠として,情緒推定を行う. 情緒推定技術を高める上で,情緒生起原因を表す言語表現の収集は基礎的で重要 な課題である.そこで本研究では,Webコーパスから,2種類の方式,すなわち因 果表現に基づく収集方式,および,共起頻度に基づく収集方式で情緒生起原因 を収集することを試みる.

一つ目の方式は,第一に,次の条件で文を収集する. 接続表現「ので」となる因果表現文であること,主節が情緒の直接表現であるこ と,文の末尾が動詞,補助動詞,もしくは助動詞が終助詞であること,述語のモ ダリティが順接的であるもの(例えば否定文),かつ,句点で終了することとする. 第二に,従属節から, 「格要素の名詞」と「述語の動詞」,および,「それらの2つ組」をそれぞれ抽 出する.最後に,主節の評価極性との共起に注目しながら「名詞」,「動詞」, および「2つ組」に対して,頻度を求める. 二つ目の方式は,第一に,次の条件で文を収集する. Webコーパスから「良い」(Positiveの明確な形容詞),および「悪い」 (Negativeの明確な形容詞)が出現する文数をそれぞれ求める.第二に,因果表現文で収集した2 つ組を含む文を収集する.その中で,「良い」と共起する文数,および「悪い」と共 起する文数を求める.最後に,以上の文数を用いて評価極性値$SO$-$Score$を算出する.

本研究で収集する情緒生起原因は,名詞と動詞の「2つ組」に着目し,Kawaharaらの$5$億文Webコーパスから収集を 試みる. 因果表現に基づく収集では,獲得の手がかりとなる感情表現に小林らの直接表 現辞書から人手で抽出した$374$語の感情表現を使用する.テキストと感情表現 を照合して抽出し,従属節を形態素解析と係り受け解析によって「名詞」,「動詞」,お よびそれらの「2つ組」を抽出して,頻度を求める.共起頻度に基づく収集では,$5$億文のテキストと 「良い」,および「悪い」を照合して,照合した文数を求める.さらに,$5$億文 のテキス トと「2つ組」(Positive傾向である名詞「写真」, 「店」 およ び,Negative 傾向である名詞「家」,「車」についての「動詞」を組み合わせた2つ組)を照合する.再び抽出文と「良い」,および「悪い」を照合して, 照合した文数を求める.求めた文数を式変形した$SO$-$Score$の式に代入して算 出する.

収集した結果,因果表現文は$12,060$文収集し,$10,333$の「2つ組」を得た. また,共起頻度に基づいた文は$284,720$文収集し,その中から$205$の「2つ組」 を得た.これらを評価したところ, 因果表現文からの収集は,日本語語彙大系の日本語表現パターン 数に比べて数が不足している. また共起頻度に基づく収集は,網羅性が高いが,Negitive傾向の名詞に対する評価極性の 信頼性確保が課題として残った.これには多くの2つ組の収集を行いながら対策 を考える必要がある.

2つの方式で情緒生起原因を収集することができたが,情緒推定技術の重要な資 源確保,および,言語の意味理解に関する知見獲得のために,今後も収集と考察 を続ける必要があると考えている.



平成24年3月20日