next up previous contents
Next: 実験方法 Up: 実験環境 Previous: 使用NMTエンジン   目次

使用コーパス

実験で使用するコーパスは,Project Next NLP 対話タスクで収集されたコーパス(雑談対話コーパス)[6]と 名大会話コーパス(日本語自然会話書き起こしコーパス)[7]である. コーパスの詳細を表5.2.1に示す.

また,表5.2.2はコーパスの用途別データ数である. 開発データとは,Open-NMTのプレトレーニングで必要なデータである.


表 5.2.1: 使用コーパス
コーパス名称 制作
雑談対話コーパス 対話破綻検出チャレンジ
名大会話コーパス 日本語教育ネットワーク
表 5.2.2: コーパス用途別データ数
用途 データ数
総数 69,452
開発データ 1,389
訓練データ 67,369
テストデータ 694



2018-02-28