next up previous contents
次へ: 学習データの数 上へ: 実験環境 戻る: 実験内容   目次

実験データ

単文の実験には辞書の例文より抽出した単文コーパス[11] 181,988文からベースラインの学習データとして100,000文,テストデータとして10,000文用いる. また,重文複文の実験では重文複文コーパス[12] 121,719文からベースラインの学習データとして100,000文,テストデータとして10,000文用いる.

単文,重文複文の両方において,提案手法の学習データはベースラインで用いた100,000文に6.1節で作成する対訳フレーズデータをそれぞれ加えたデータを学習データとする.

単文コーパスには日本語文は単文であるが英語文は重文複文である文も含まれる. また,重文複文コーパスには日本語文は重文複文であるが英語文は単文である文も含まれる.

統計翻訳の前処理として,各コーパスの日本語文に対して,MeCab[13]を用いて形態素解析を行う. また,英語文に対して `` tokenizer.perl[7]''を用いて分かち書きを行う. 前処理を行った対訳文の例を表5.1に示す.


表: 対訳文の例
石油 の 発見 で その 国 は 裕福 に なっ た 。
The discovery of oil enriched the country .
梅雨 が 始まっ た 。
The rainy season has set in .
彼 は 食料 品 店 を 営ん で いる 。
He runs a grocery store .



平成23年3月23日