一つ目の方式は,第一に,次の条件で文を収集する. 接続表現「ので」となる因果表現文であること,主節が情緒の直接表現であるこ と,文の末尾が動詞,補助動詞,もしくは助動詞が終助詞であること,述語のモ ダリティが順接的であるもの(例えば否定文),かつ,句点で終了することとする. 第二に,従属節から, 「格要素の名詞」と「述語の動詞」,および,「それらの2つ組」をそれぞれ抽 出する.最後に,主節の評価極性との共起に注目しながら「名詞」,「動詞」, および「2つ組」に対して,頻度を求める. 二つ目の方式は,第一に,次の条件で文を収集する. Webコーパスから「良い」(Positiveの明確な形容詞),および「悪い」 (Negativeの明確な形容詞)が出現する文数をそれぞれ求める.第二に,因果表現文で収集した2 つ組を含む文を収集する.その中で,「良い」と共起する文数,および「悪い」と共 起する文数を求める.最後に,以上の文数を用いて評価極性値-を算出する.
本研究で収集する情緒生起原因は,名詞と動詞の「2つ組」に着目し,Kawaharaらの億文Webコーパスから収集を 試みる. 因果表現に基づく収集では,獲得の手がかりとなる感情表現に小林らの直接表 現辞書から人手で抽出した語の感情表現を使用する.テキストと感情表現 を照合して抽出し,従属節を形態素解析と係り受け解析によって「名詞」,「動詞」,お よびそれらの「2つ組」を抽出して,頻度を求める.共起頻度に基づく収集では,億文のテキストと 「良い」,および「悪い」を照合して,照合した文数を求める.さらに,億文 のテキス トと「2つ組」(Positive傾向である名詞「写真」, 「店」 およ び,Negative 傾向である名詞「家」,「車」についての「動詞」を組み合わせた2つ組)を照合する.再び抽出文と「良い」,および「悪い」を照合して, 照合した文数を求める.求めた文数を式変形した-の式に代入して算 出する.
収集した結果,因果表現文は文収集し,の「2つ組」を得た. また,共起頻度に基づいた文は文収集し,その中からの「2つ組」 を得た.これらを評価したところ, 因果表現文からの収集は,日本語語彙大系の日本語表現パターン 数に比べて数が不足している. また共起頻度に基づく収集は,網羅性が高いが,Negitive傾向の名詞に対する評価極性の 信頼性確保が課題として残った.これには多くの2つ組の収集を行いながら対策 を考える必要がある.
2つの方式で情緒生起原因を収集することができたが,情緒推定技術の重要な資 源確保,および,言語の意味理解に関する知見獲得のために,今後も収集と考察 を続ける必要があると考えている.