実験データ

次へ: 評価方法 上へ: 実験環境 戻る: 言語モデルの学習目次

実験データ

実験データには，辞書の例文より抽出した単文コーパス181,988文から，学習データとして100,000文，テストデータとして10,000文を用いる．統計翻訳の前処理として，各コーパスの日本語文に対して，MeCab[12]を用いて分かち書きを行う．さらに，各コーパスの英語文に対して，tokenizer.perl[9]を用いて，分かち書きを行う．表29に日英対訳文の例を示す．

表: 単文コーパス例文
日本語文	昼食をたっぷり取った。
英語文	I had a big lunch .
日本語文	梅雨が始まった。
英語文	The rainy season has set in .
日本語文	私は猫を１匹飼っている。
英語文	I have a cat .

また，主語補完を行う際の形態素解析には，CaboCha[13]を用いる．

平成23年4月12日