next up previous contents
次へ: 通常のデータ 上へ: 実験環境 戻る: 実験環境   目次

対訳データ

辞書の例文から抽出された単文コーパス182,899文を使用する.単文コーパスは対訳コーパスであり,日本語コーパスと英語コーパスに分けられている.対訳データの日本語コーパスに対しては,文中の「、」を削除し,ChaSen[9]を用いてわかち書きを行う.英語コーパスに対しては,tokenizer.perlを用いて,二つ以上の単語が結合している単語を分離するが,lowercase.perlを用いた英字全小文字化を行わない.



Subsections

平成21年3月19日