単文コーパス | 重文複文コーパス | |
学習文 | 99,989文 | 97,765文 |
テスト文 | 9,999文 | 9,784文 |
ディベロップメント文 | 1,000文 | 976文 |
平均単語数 | 10.5単語 | 14.0単語 |
(実験データの文数) | (110,988文) | (108,525文) |
単文コーパスと重文複文コーパスは対訳コーパスであり,日本語コーパスと英語コーパスに分けられている.対訳データの日本語コーパスに対しては,Cabocha[14]を用いてわかち書きを行う.英語コーパスに対しては,tokenizer.perlを用いて,二つ以上の単語が結合している単語を分離するが,lowercase.perlを用いた英字の小文字化は行わない.