次へ: 学習データの数 上へ: 実験環境 戻る: 実験内容目次

実験データ

単文の実験には辞書の例文より抽出した単文コーパス[11] 181,988文からベースラインの学習データとして100,000文，テストデータとして10,000文用いる．また，重文複文の実験では重文複文コーパス[12] 121,719文からベースラインの学習データとして100,000文，テストデータとして10,000文用いる．

単文，重文複文の両方において，提案手法の学習データはベースラインで用いた100,000文に6.1節で作成する対訳フレーズデータをそれぞれ加えたデータを学習データとする．

単文コーパスには日本語文は単文であるが英語文は重文複文である文も含まれる．また，重文複文コーパスには日本語文は重文複文であるが英語文は単文である文も含まれる．

統計翻訳の前処理として，各コーパスの日本語文に対して，MeCab[13]を用いて形態素解析を行う．また，英語文に対して `` tokenizer.perl[7]''を用いて分かち書きを行う．前処理を行った対訳文の例を表5.1に示す．

表: 対訳文の例
石油の発見でその国は裕福になった。
The discovery of oil enriched the country .
梅雨が始まった。
The rainy season has set in .
彼は食料品店を営んでいる。
He runs a grocery store .

平成23年3月23日