次へ: 教師の獲得
上へ: 実験データ
戻る: 実験データ
目次
本研究の教師データ,テストデータは京大コーパス[10]から獲得する.
京大コーパスとは,新聞記事を自動解析後,人手による修正を加え, 各種言語情報を付与した品詞タグ付きコーパスである. 京大コーパスには,あらかじめ構文解析が行われており,係り先が付与されている.図3.1に京大コーパスを示す.ここで#の付いている行は,先頭の行を示しており,京大コーパスの文番号など が付与されている.EOSは文の終わりを表している.*の付いている行は,左から文節番号,数字部分が係り先の 文節番号,英数字D,P,Aが係り受け関係,並列関係,同格関係を示している.
係り受けについて,Dの左の番号は係り先の文節の番号を表しており,例では,「ロシア側は」の文節は,入力文の中で0番目に出現する文節で,3Dは3番目の分節に係ることを表している.
その他の行は,形態素情報を表しており,左から,表記,読み,原型(活用しない語の場合は*), 品詞,品詞細分類,活用型,活用形を示している.
図:
京大コーパス例
|
平成25年2月12日