next up previous contents
次へ: 重文複文コーパスを用いた実験 上へ: 実験データ 戻る: 実験データ   目次

単文コーパスを用いた実験

辞書の例文より抽出した単文コーパス182,899文[16]から,表5.2に示す文数を実験に用いる.


表: 単文コーパス
英語・日本語学習文 各100,000文
英語・日本語テスト文 各10,000文
英語・日本語ディベロップメント文 各1,000文

統計翻訳の前処理として,各コーパスの日本語文に対して,``chasen[17]''を用いて形態素解析を行う. また,英語文に対して,``tokenizer.perl[14]''を用いて,わかち書きを行う. 単文の実験データの例を表5.3に示す.


表: 単文実験データの例
例1
日本語文 警察 は 容疑 者 を 洗っ て いる 。
英語文 The police are investigating the suspect .
例2
日本語文 彼 は 仕事 で アメリカ へ 飛ん だ 。
英語文 He flew to the United States on business .
例2
日本語文 学校 に も 行っ た 。
英語文 I went to a school also .




平成25年2月13日