next up previous contents
次へ: 対訳パターン 上へ: 実験データ 戻る: 単文コーパスを用いた実験   目次

重文複文コーパスを用いた実験

鳥バンクの例文より抽出した重文複文コーパス122,719文[15]から,表5.3に示す文数を実験に用いる.


表: 重文複文コーパス
英語・日本語学習データ 各100,000文
英語・日本語対訳パターンデータ 各100,000文
英語・日本語テストデータ 各10,000文
英語・日本語ディベロップメントデータ 各1,000文


統計翻訳の前処理として,各コーパスの日本語文に対して,``MeCab[16]''を用いて形態素解析を行う. また,英語文に対して,``tokenizer.perl[13]''を用いて,わかち書きを行う. 重文複文の実験データの例を表5.4に示す.


表: 重文複文実験データの例
例1
日本語文 ぼく に は 余分 な お金 も 時間 も ない 。
英語文 I have neither money nor time to spare .
例2
日本語文 彼 は 年 を とる につれて ますます 頑固 に なっ た 。
英語文 He grew more obstinate as he grew older .
例3
日本語文 何 か 忘れ物 を し た 気 が する 。
英語文 I feel I have forgotten something .



平成26年3月7日