next up previous contents
次へ: 重文複文コーパスを用いた実験 上へ: 実験データ 戻る: 実験データ   目次

単文コーパスを用いた実験

辞書の例文より抽出した単文コーパス182,899文[15]から,表5.1に示す文数を実験に用いる.


表: 単文コーパス
英語・日本語学習データ 各100,000文
英語・日本語対訳パターンデータ 各100,000文
英語・日本語テストデータ 各10,000文
英語・日本語ディベロップメントデータ 各1,000文

統計翻訳の前処理として,各コーパスの日本語文に対して,``MeCab[16]''を用いて形態素解析を行う. また,英語文に対して,``tokenizer.perl[13]''を用いて,わかち書きを行う. 単文の実験データの例を表5.2に示す.


表: 単文実験データの例
例1
日本語文 これ 以上 ここ に いる 理由 は ない 。
英語文 There is no reason for staying here any longer .
例2
日本語文 こんな 品 が 手 に 入っ た 。
英語文 I got hold of this kind of merchandise .
例3
日本語文 子供 ほど 正直 な 人 は い ない 。
英語文 There is no one as frank as a child .



平成26年3月7日