本実験ではオープンデータによる実験を行い,クローズデータによる実験は行わない.つまり,入力文を利用した学習は行わない. 表4.2に対訳文と入力文の例を示す.
また,統計翻訳の前処理として,各コーパスの日本語文に対して,``MeCab[15]"を用いて形態素解析を行う.そして,英語文に対して``tokenizer.perl[16]"を用いて分かち書きを行う.表4.2の例はこの処理を行った後の状態である.
入力文はコーパスから抽出しているため,英語側が存在する.しかし,この入力文の英語側を利用した学習は行わない.入力文の英語側は参照文として,自動評価や人手評価の際の参考にする.