next up previous contents
次へ: 評価方法 上へ: 実験環境 戻る: 言語モデルの学習   目次

実験データ

実験データには,辞書の例文より抽出した単文コーパス181,988文から,学習データとして100,000文,テストデータとして10,000文を用いる.統計翻訳の前処理として,各コーパスの日本語文に対して,MeCab[12]を用いて分かち書きを行う.さらに,各コーパスの英語文に対して,tokenizer.perl[9]を用いて,分かち書きを行う.表29に日英対訳文の例を示す.

表: 単文コーパス例文
日本語文 昼食 を たっぷり 取っ た 。
英語文 I had a big lunch .
日本語文 梅雨が始まった。
英語文 The rainy season has set in .
日本語文 私 は 猫 を 1 匹 飼っ て いる 。
英語文 I have a cat .

また,主語補完を行う際の形態素解析には,CaboCha[13]を用いる.


平成23年4月12日