次へ:
重文複文コーパス
上へ:
実験データ
戻る:
実験データ
目次
単文コーパス
実験には,辞書の例文より抽出した単文コーパス182,899文[
9
]から, 学習データとして100,000文,テストデータとして10,000文,ディベロップメントデー タとして1,000文を用いる.
統計翻訳の前処理として,各コーパスの日本語文に対して,``chasen[
10
]''を用いて形態素解析を行なう.また英語文に対して,``tokenizer.perl[
8
]''を用いて,わかち書きを行なう.
平成22年2月11日