「動詞で構成された連体修飾節V+名詞Aの名詞B」型名詞句の表現で,VがAとB のどちらに係るのかを判定する手法は,安井らにより提案された[1].その手法 は言語情報をもとに作られた6つの個別解析方法を決定リストで統合したも のである. しかし,安井らの研究では,テストデータの信頼性が確認されておらず,評価 実験の結果が不明確であった. また,自然言語処理分野では,係り先データとして,京大コーパス[2]が広く使 用されているが,京大コーパスでは係り先があいまいなものを無理に一方に係り 先を指定している.
そこで本研究では,京大コーパスをベースに,信頼性を確保した係り先データ を作成し,そのデータを用いて,安井らの提案した自動解析手法の評価実験を行う.
本研究では,係り先データ作成のための「V+AのB」型名詞句は,京大コーパスよ り約2,000件抽出した.そのデータに対し,予備実験において作業 精度が高かった作業者10名から3人組を作り,名詞句一件に対し,3人で係り先の 判定を行ってもらった. その後,3人組で多数決を行い,その結果の付与先が京大コーパスと一致したもの 1,590件を信頼性のあるデータとした.次に,作成した係り先データをテストデー タに用いることで,安井らの提案手法の有効性評価を行った.その結果,提案手 法の正解率は75.5%となった. また,比較のために行ったデフォルト規則(全て 「A係り」)による実験の 結果は77.3%であった.
安井らの提案手法を調査したところ,安井らが提案した手法で使われている6つの 個別解析方法のうち,4つの個別解析方法の信頼度(ある解析方法が適用されたと きに,正解が出力される確率)が,デフォルト規則の正解率よりも低い値いとなっ ていることがわかった. そこで,デフォルト規則よりも高い信頼度を持っているCBS法,IPS法およびデフォルト 規則を用いて評価 実験を再度行った.その結果は正解率が81.1%となった.
安井らの提案手法は,デフォルト規則の正解率よりも結果が悪くなったことから, その有効性の確認はできなかったが,その中でのCBS法,IPS法は有効であることを確認した.