次へ: ルールベース翻訳
上へ: 実験データ
戻る: 単文コーパス
目次
実験には,辞書の例文より抽出した重文複文コーパス122,719文[11]から,
学習データとして100,000文,テストデータとして10,000文,ディベロップメントデー
タとして1,000文を用いる.
統計翻訳の前処理として,各コーパスの日本語文に対して,
``chasen[10]''を用いて形態素解析を行なう.また英語文に対して,
``tokenizer.perl[8]''を用いて,わかち書きを行なう.
平成22年2月11日