next up previous contents
次へ: 予備実験 上へ: 係り先データの作成 戻る: 係り先データの作成   目次

データ作成の着目点

本研究では,京大コーパスから抽出した「V+AのB」型名詞句を使用する.しかし, 京大コーパスの問題点で述べたように,京大コーパスには係り先の不正解なもの が含まれている.そこで,本研究では,あらたに人手による係り先付与も行い, 係り先の一致したものだけを抽出し,係り先データを作成する.

なお,安井らの研究の問題点を考慮し,人手による係り先付与を行う前に,予備 実験を行い付与 精度を調査する.その結果付与精度の良かった付与者に作業を依頼する.1件の 名詞句に対しては,多数決必要人数の考察より,3人でしか付与を行わないが, 作業者全体の人数は10人に増やす.また,実験誤差を抑えるために,データを増 やし2,000件の名詞句に判定を行ってもらう.



平成19年3月25日