重文複文コーパス

次へ: ルールベース翻訳 上へ: 実験データ 戻る: 単文コーパス目次

重文複文コーパス

実験には，辞書の例文より抽出した重文複文コーパス122,719文[11]から，学習データとして100,000文，テストデータとして10,000文，ディベロップメントデータとして1,000文を用いる．
統計翻訳の前処理として，各コーパスの日本語文に対して， ``chasen[10]''を用いて形態素解析を行なう．また英語文に対して， ``tokenizer.perl[8]''を用いて，わかち書きを行なう．

平成22年2月11日