次へ: 通常のデータ 上へ: 実験環境 戻る: 実験環境目次

対訳データ

本研究では，辞書の例文から抽出した対訳データの単文コーパス[3]から，主語のない文と体言止めの文を削除する．対訳データの文数を表4.1に示す．

単文コーパスは対訳コーパスであり，日本語コーパスと英語コーパスに分けられている．対訳データの日本語コーパスに対しては，Cabocha[8]を用いてわかち書きを行う．英語コーパスに対しては，tokenizer.perlを用いて，二つ以上の単語が結合している単語を分離するが，lowercase.perlを用いた英字全小文字化を行わない．

表: 対訳データの文数
train文	82,261
test文	8,189
development文	825

Subsections

通常のデータ
提案手法のデータ

平成26年3月29日