次へ: 通常のデータ
上へ: 実験環境
戻る: 実験環境
目次
本研究では,辞書の例文から抽出した対訳データの単文コーパス[3]から,主語のない文と体言止めの文を削除する.対訳データの文数を表4.1に示す.
単文コーパスは対訳コーパスであり,日本語コーパスと英語コーパスに分けられている.対訳データの日本語コーパスに対しては,Cabocha[8]を用いてわかち書きを行う.英語コーパスに対しては,tokenizer.perlを用いて,二つ以上の単語が結合している単語を分離するが,lowercase.perlを用いた英字全小文字化を行わない.
表:
対訳データの文数
train文 |
82,261 |
|
test文 |
8,189 |
|
development文 |
825 |
|
Subsections
平成26年3月29日