next up previous contents
次へ: 評価手法 上へ: 実験環境 戻る: デコーダのパラメータ   目次

実験データ

本研究における実験データには,辞書の例文より抽出した日英対訳文である単文コーパス,重文複文コーパスを用いる[17].統計翻訳の前処理として,各コーパスの日本語文に対して,``MeCab[18]"を用いて形態素解析を行う.また,英語文に対して``tokenizer.perl[15]"を用いて分かち書きを行う.単文コーパスの例を表4.3に,重文複文コーパスの例を表4.4に示す.また,単文翻訳実験および重文複文翻訳実験それぞれにおけるデータの内訳を表4.5に示す.


表: 単文コーパスの例
日本語 誰だって1人ではできない。
英語 No one man can do it .
日本語 彼女は音楽の先生をしている。
英語 She is a music teacher .
日本語 それはできない相談だ。
英語 That's an impossible proposition .


表: 重文複文コーパスの例
日本語 ああ いう 人 と 付き合っ て は だめ だ 。
英語 You should not associate with that kind of person .
日本語 流れ の 急 な 川 で 泳ぐ の は 危ない 。
英語 Swimming in a rapid river is dangerous .
日本語 原っぱ へ 行っ て キャッチボール を しよ う 。
英語 Let's go to the open field and play catch .


表: データの内訳
使用データ 単文 重文複文
対訳学習データ 60,000文 50,000文
テスト文 10,000文 10,000文
ディベロップメント文 2,000文 1,200文
日本語学習文 100,000文 60,000文


next up previous contents
次へ: 評価手法 上へ: 実験環境 戻る: デコーダのパラメータ   目次
平成25年2月12日