next up previous contents
次へ: 目次 上へ: thesis9 戻る: thesis9   目次

概要

日本語語彙大系[1]の結合価パターンは,日英機械翻訳や情緒推定などに広く有効であり,意味解析の基盤と考えられている.結合価パターンには,用言意味属性が付与されており,事態(事象や状態をあわせて事態という)のカテゴリを表すラベルとして利用可能であった.しかし,事態を構成する要素を抽出することには利用できなかった.例えば,パターン「$N1$$N2$から$N3$へ行く」において,用言意味属性は「物理的移動」であったが,移動した者,移動元,移動先は抽出できなかった.

竹内ら[2]は,動詞の語義単位の例文に対して意味役割の設計を行い,動詞4,425語(7,473語義)に対する例文に意味役割(全87種)の付与を行なっている.これにより,動詞と項(要素)との関係を意味役割によって示すことができた.しかし,結合価パターンへの付与は行われていない.

そこで,本研究では文から事態を構成する情報を抽出するために,パターン辞書の改良を行う.既存の用言意味属性(36種類)に対し,事態構成要素属性(36セット)を用意するとともに,パターンに対して事態構成要素属性を付与する.本年度では,用言意味属性に曖昧性のないパターンを対象に付与を試みる.

本研究では日本語語彙大系における36種類中24種類の用言意味属性に対して,事態構成要素属性を定義した.設計した事態構成要素は38種類であり,要素の組み合わせより24種類の事態構成要素属性を定義した.また,定義した事態構成要素属性を対応する3,660件の結合価パターンに付与した.なお,付与と並行して付与マニュアルを作成した.

評価として,付与の安定性の調査と動作確認を行なった.安定性の調査は,100件のランダムにサンプリングした結合価パターンの付与見直しを行なった.結果,100件中95件が同じ付与結果となり95%の精度で正しい付与が行えることが確認できた.また,動作確認はブログ記事26件のパターンマッチにより事態構成要素属性の効果を調査した.26件中22件で期待した要素の抽出ができた.84.6%が付与に対して期待通りの結果が出ることを確認した.


root 平成23年3月21日