next up previous contents
次へ: 対訳句 上へ: 実験環境 戻る: 実験環境   目次

日英対訳文

本研究では, 日英対訳文として, 単文コーパス[5]を用いる. なお, 本研究で使用する単文コーパスにおいて, 日本語文は単文である. しかし, 英語文は単文とは限らず, 重文・複文が含まれている. 統計翻訳の前処理として, 日本語文に対して, MeCab[8]を用いて形態素解析を行う. また, 英語文に対して, tokenizer.sed[9]を用いて正規化を行う.

本研究では, 単文コーパスを表6.1の内訳で用いる.

表: 日英対訳文数
対訳文 100,000文対
テストデータ 100文




平成27年3月19日