next up previous contents
次へ: 翻訳モデルの学習 上へ: 実験環境 戻る: 実験環境   目次

日英対訳コーパス

本研究では日英対訳コーパスとして,単文コーパスと重文複文コーパス[3]を用いる. 統計翻訳の前処理として,各コーパスの日本語文に対して,MeCab[14]を用いて形態素解析を行う. また,英語文に対して ``tokenizer.sed [15]"を用いて正規化を行う. 前処理後の単文コーパスの例を表[*]に,重文複文コーパスの例を表[*]にそれぞれ示す.


表: 前処理後の単文コーパスの例
日本語文 魚 が たくさん 取れ た 。
英語文 Many fish were caught .
日本語文 娘 は 今年 中学校 に 上がっ た 。
英語文 My daughter advanced to middle school this year .
日本語文 彼 は 踏み台 に 乗っ た 。
英語文 He got on to a stool .


表: 前処理後の重文複文コーパスの例
日本語文 勉強 を し て いる 間 は ラジオ を 切っ て おき なさい 。
英語文 While studying , turn off the radio .
日本語文 たかし は 言いつけ を よく 守る 子 だ 。
英語文 Takashi is an obedient boy .
日本語文 映画 が 始まる まで に まだ 3 0 分 ある 。
英語文 We still have 30 minutes before the movie starts .


next up previous contents
次へ: 翻訳モデルの学習 上へ: 実験環境 戻る: 実験環境   目次
平成25年2月12日