Next:
実験方法
Up:
実験環境
Previous:
使用NMTエンジン
目次
使用コーパス
実験で使用するコーパスは,Project Next NLP 対話タスクで収集されたコーパス(雑談対話コーパス)[
6
]と 名大会話コーパス(日本語自然会話書き起こしコーパス)[
7
]である. コーパスの詳細を表
5.2.1
に示す.
また,表
5.2.2
はコーパスの用途別データ数である. 開発データとは,Open-NMTのプレトレーニングで必要なデータである.
表 5.2.1:
使用コーパス
コーパス名称
制作
雑談対話コーパス
対話破綻検出チャレンジ
名大会話コーパス
日本語教育ネットワーク
表 5.2.2:
コーパス用途別データ数
用途
データ数
総数
69,452
開発データ
1,389
訓練データ
67,369
テストデータ
694
2018-02-28