統計翻訳の前処理として,各コーパスの日本語文に対して,``chasen[17]''を用いて形態素解析を行う. また,英語文に対して,``tokenizer.perl[14]''を用いて,わかち書きを行う. 単文の実験データの例を表5.3に示す.
例1 | |
日本語文 | 警察 は 容疑 者 を 洗っ て いる 。 |
英語文 | The police are investigating the suspect . |
例2 | |
日本語文 | 彼 は 仕事 で アメリカ へ 飛ん だ 。 |
英語文 | He flew to the United States on business . |
例2 | |
日本語文 | 学校 に も 行っ た 。 |
英語文 | I went to a school also . |