単文コーパス

次へ: 重文複文コーパス 上へ: 実験データ 戻る: 実験データ目次

単文コーパス

実験には，辞書の例文より抽出した単文コーパス182,899文[9]から，学習データとして100,000文，テストデータとして10,000文，ディベロップメントデータとして1,000文を用いる．
統計翻訳の前処理として，各コーパスの日本語文に対して，``chasen[10]''を用いて形態素解析を行なう．また英語文に対して，``tokenizer.perl[8]''を用いて，わかち書きを行なう．

平成22年2月11日