英語・日本語学習データ | 各100,000文 |
英語・日本語対訳パターンデータ | 各100,000文 |
英語・日本語テストデータ | 各10,000文 |
英語・日本語ディベロップメントデータ | 各1,000文 |
統計翻訳の前処理として,各コーパスの日本語文に対して,``MeCab[16]''を用いて形態素解析を行う.
また,英語文に対して,``tokenizer.perl[13]''を用いて,わかち書きを行う.
重文複文の実験データの例を表5.4に示す.
例1 | |
日本語文 | ぼく に は 余分 な お金 も 時間 も ない 。 |
英語文 | I have neither money nor time to spare . |
例2 | |
日本語文 | 彼 は 年 を とる につれて ますます 頑固 に なっ た 。 |
英語文 | He grew more obstinate as he grew older . |
例3 | |
日本語文 | 何 か 忘れ物 を し た 気 が する 。 |
英語文 | I feel I have forgotten something . |