next up previous contents
次へ: 京大コーパスの問題点 上へ: 京大コーパス 戻る: 京大コーパス   目次

京大コーパスとは

自然言語処理分野では,係り先データとして京大コーパスが広く使用されて いる.京大コーパスとは,新聞記事を自動解析後,人手による修正を加え, 各種言語情報を付与した品詞タグ付きコーパスである. 京大コーパスには,あらかじめ構文解析が行われており,係り先が付与さ れている.以下に京大コーパスの例を示す.

ここで#の付いている行は,先頭の行を示しており,京大コーパスの文番号など が付与されている.*の付いている行は,左から文節番号,数字部分が係り先の 文節番号,英数字D,P,Aが係り受け関係,並列関係,同格関係を示している. その他の形態素情報は,左から,表記,読み,原型(活用しない語の場合は*), 品詞,品詞細分類,活用型,活用形を示している.

なお,本研究で用いた京大コーパスは,Version4.0である.
ダウンロード先のURLは http://nlp.kuee.kyoto-u.ac.jp/nl-resource/corpus.htmlである.
バージョンを調べた日付:平成19年1月14日

図 1: 京大コーパスの例
\includegraphics[width=32zw,clip]{kyo_temp.eps}


平成19年3月25日