next up previous contents
Next: 評価方法 Up: 実験環境 Previous: 実験環境   Contents


実験データ

本研究では,電子辞書などの例文より抽出した単文コーパス[14]を用いる.使用するデータの内訳を表4.1に示す.


Table 4.1: 実験データ
96#96


本実験ではオープンデータによる実験を行い,クローズデータによる実験は行わない.つまり,入力文を利用した学習は行わない. 表4.2に対訳文と入力文の例を示す.


Table 4.2: 実験データの例
97#97


また,統計翻訳の前処理として,各コーパスの日本語文に対して,``MeCab[15]"を用いて形態素解析を行う.そして,英語文に対して``tokenizer.perl[16]"を用いて分かち書きを行う.表4.2の例はこの処理を行った後の状態である.

入力文はコーパスから抽出しているため,英語側が存在する.しかし,この入力文の英語側を利用した学習は行わない.入力文の英語側は参照文として,自動評価や人手評価の際の参考にする.



Hiroto Yasuba 2019-05-08