単文,重文複文の両方において,提案手法の学習データはベースラインで用いた100,000文に6.1節で作成する対訳フレーズデータをそれぞれ加えたデータを学習データとする.
単文コーパスには日本語文は単文であるが英語文は重文複文である文も含まれる. また,重文複文コーパスには日本語文は重文複文であるが英語文は単文である文も含まれる.
統計翻訳の前処理として,各コーパスの日本語文に対して,MeCab[13]を用いて形態素解析を行う. また,英語文に対して `` tokenizer.perl[7]''を用いて分かち書きを行う. 前処理を行った対訳文の例を表5.1に示す.
石油 の 発見 で その 国 は 裕福 に なっ た 。 |
The discovery of oil enriched the country . |
梅雨 が 始まっ た 。 |
The rainy season has set in . |
彼 は 食料 品 店 を 営ん で いる 。 |
He runs a grocery store . |