次へ: 対訳句
上へ: 実験環境
戻る: 実験環境
目次
本研究では, 日英対訳文として, 単文コーパス[5]を用いる.
なお, 本研究で使用する単文コーパスにおいて, 日本語文は単文である. しかし, 英語文は単文とは限らず, 重文・複文が含まれている. 統計翻訳の前処理として, 日本語文に対して, MeCab[8]を用いて形態素解析を行う.
また, 英語文に対して, tokenizer.sed[9]を用いて正規化を行う.
本研究では, 単文コーパスを表6.1の内訳で用いる.
表:
日英対訳文数
対訳文 |
100,000文対 |
テストデータ |
100文 |
平成27年3月19日