next up previous contents
次へ: 重文複文コーパス 上へ: 実験データ 戻る: 実験データ   目次

単文コーパス

実験には,辞書の例文より抽出した単文コーパス182,899文[9]から, 学習データとして100,000文,テストデータとして10,000文,ディベロップメントデー タとして1,000文を用いる.
統計翻訳の前処理として,各コーパスの日本語文に対して,``chasen[10]''を用いて形態素解析を行なう.また英語文に対して,``tokenizer.perl[8]''を用いて,わかち書きを行なう.



平成22年2月11日