next up previous contents
次へ: 係り先データの作成 上へ: 京大コーパス 戻る: 京大コーパスとは   目次

京大コーパスの問題点

京大コーパスには,あらかじめ係り先が付与されているが,京大コーパスは 「AB係り」を無理に一方に指定しているため,係り 先のあいまいなものが正しくタグ付けされていないと安井らは報告している. 安井らが「AB係り」になると 報告している例文とその理由を以下に示す.

$例5:\underline{国連防衛軍に所属する}_{(V)}\underline{チェコ憲兵部隊}_{(A)}の\underline{ツェフ大佐}_{(B)}$

「国連防衛軍に所属するチェコ憲兵部隊」は,「あるチェコ憲兵 部隊」が「国連防衛軍に所属している」ということが想像できる.「国連防衛 軍に所属するツェフ大佐」も,「ツェフ大佐」が「国連防衛軍に所属している」 ということが想像できる.このことから,これは「AB係り」と見ることが出来 る.

さらに本研究でも検査したところ,係り先が間違っていると思われるものが見ら れた.以下にその例を示す.

$例6:\underline{規制してきた}_{(V)}\underline{最大}_{(A)}の
\underline{理由}_{(B)}$

$例7:\underline{事件・捜査にかかわる}_{(V)}\underline{公式}_{(A)}の
\underline{情報}_{(B)}$

例6では,連体修飾節Vが名詞Aに係ると考えると「規制してきた最大」となり, 意味的に不自然で想像しにくい.名詞Bに係ると考えると「規制してきた理由」 となり「ある理由」から「なにかを規制してきた」ことが想像できる.よって 係り先は名詞Bの「理由」である.しかし京大コーパスでは,係り先を名詞Aの 「最大」にしている.

次に例7では,連体修飾節Vが名詞Aに係ると考えると「事件捜査にかかわる 公式」となり,意味的に不自然で想像しにくい.名詞Bに係ると考えると「事 件捜査にかかわる情報」となり,「ある情報」が「事件・捜査にかかわる」も のであることが想像できる.よって係り先は名詞Bの「情報」となるが,これ も京大コーパスでは,係り先を名詞Aの「公式」にしている.

このように,京大コーパスに,あらかじめ付与されている係 り先は必ずしも正しいものとはなっていない.


平成19年3月25日