next up previous contents
次へ: 実験内容 上へ: 実験環境 戻る: 実験環境   目次

使用するコーパス

a.
単文コーパス
実験に,辞書の例文より抽出した単文コーパス182,899文[11]から, 学習データとして100,000文,テストデータとして10,000文, ディベロップメントデータとして1,000文を用いる.統計翻訳の前処理として, 各コーパスの日本語文に対して,MeCab[19]を使用し形態素解析を行う.
b.
重文複文コーパス
実験には,辞書の例文より抽出した重文複文コーパス122,719文[12]から, 学習データとして100,000文,テストデータとして10,000 文, ディベロップメントデータとして1,000 文を用いる.統計翻訳の前処理は単文と同様の処理を行う.



root 平成24年3月22日