次へ:
評価方法
上へ:
実験環境
戻る:
言語モデルの学習
目次
実験データ
実験データには,辞書の例文より抽出した単文コーパス181,988文から,学習データとして100,000文,テストデータとして10,000文を用いる.統計翻訳の前処理として,各コーパスの日本語文に対して,MeCab[
12
]を用いて分かち書きを行う.さらに,各コーパスの英語文に対して,tokenizer.perl[
9
]を用いて,分かち書きを行う.表
29
に日英対訳文の例を示す.
表:
単文コーパス例文
日本語文
昼食 を たっぷり 取っ た 。
英語文
I had a big lunch .
日本語文
梅雨が始まった。
英語文
The rainy season has set in .
日本語文
私 は 猫 を 1 匹 飼っ て いる 。
英語文
I have a cat .
また,主語補完を行う際の形態素解析には,CaboCha[
13
]を用いる.
平成23年4月12日