next up previous contents
次へ: 通常のデータ 上へ: 実験環境 戻る: 実験環境   目次

対訳データ

本研究では,辞書の例文から抽出した対訳データの単文コーパス[3]から,主語のない文と体言止めの文を削除する.対訳データの文数を表4.1に示す.

単文コーパスは対訳コーパスであり,日本語コーパスと英語コーパスに分けられている.対訳データの日本語コーパスに対しては,Cabocha[8]を用いてわかち書きを行う.英語コーパスに対しては,tokenizer.perlを用いて,二つ以上の単語が結合している単語を分離するが,lowercase.perlを用いた英字全小文字化を行わない.




表: 対訳データの文数
train文 82,261  
test文 8,189  
development文 825  



Subsections

平成26年3月29日