英語・日本語学習データ | 各100,000文 |
英語・日本語対訳パターンデータ | 各100,000文 |
英語・日本語テストデータ | 各10,000文 |
英語・日本語ディベロップメントデータ | 各1,000文 |
統計翻訳の前処理として,各コーパスの日本語文に対して,``MeCab[16]''を用いて形態素解析を行う. また,英語文に対して,``tokenizer.perl[13]''を用いて,わかち書きを行う. 単文の実験データの例を表5.2に示す.
例1 | |
日本語文 | これ 以上 ここ に いる 理由 は ない 。 |
英語文 | There is no reason for staying here any longer . |
例2 | |
日本語文 | こんな 品 が 手 に 入っ た 。 |
英語文 | I got hold of this kind of merchandise . |
例3 | |
日本語文 | 子供 ほど 正直 な 人 は い ない 。 |
英語文 | There is no one as frank as a child . |