next up previous contents
次へ: 単文コーパス 上へ: 実験環境 戻る: 実験環境   目次

実験データ

本研究では,辞書の例文から抽出した対訳データの単文コーパス[13]と重文複文コーパス[13]を用いる.実験データの文数と平均単語数を表4.1に示す.


表: 実験データの文数と平均単語数
  単文コーパス 重文複文コーパス
学習文 99,989文 97,765文
テスト文 9,999文 9,784文
ディベロップメント文 1,000文 976文
平均単語数 10.5単語 14.0単語
(実験データの文数) (110,988文) (108,525文)

単文コーパスと重文複文コーパスは対訳コーパスであり,日本語コーパスと英語コーパスに分けられている.対訳データの日本語コーパスに対しては,Cabocha[14]を用いてわかち書きを行う.英語コーパスに対しては,tokenizer.perlを用いて,二つ以上の単語が結合している単語を分離するが,lowercase.perlを用いた英字の小文字化は行わない.



Subsections

平成28年3月16日