next up previous contents
次へ: 閾値 上へ: 実験環境 戻る: 実験環境   目次


実験データ

実験データは,辞書の例文から抽出した日英対訳の単文データ[9]から,対訳文および対訳テスト文として,100,000文を用いる.なお,対訳文と対訳テスト文は同一の単文データである.英語文にはmoses[10]に付属するtokenizer.perlを用いてわかち書きを行う.また,日本語文にはMeCab[11]を用いて形態素解析を行う.なお,日英対訳の単文データは日本語文が単文であるため,英語文には重文・複文が含まれる場合がある.



平成25年2月13日