next up previous contents
次へ: ルールベース翻訳 上へ: 実験データ 戻る: 単文コーパス   目次

重文複文コーパス

実験には,辞書の例文より抽出した重文複文コーパス122,719文[11]から, 学習データとして100,000文,テストデータとして10,000文,ディベロップメントデー タとして1,000文を用いる.
統計翻訳の前処理として,各コーパスの日本語文に対して, ``chasen[10]''を用いて形態素解析を行なう.また英語文に対して, ``tokenizer.perl[8]''を用いて,わかち書きを行なう.



平成22年2月11日