本節における実験では, NMTの学習データに多変数対訳句を追加する手法(以下,+多変数対訳句と呼ぶ)および NMTの学習データに1変数対訳句を追加する手法(以下,+1変数対訳句と呼ぶ)を, 対訳文のみを学習データに追加するベースラインと比較する.
また,+1変数対訳句の手法において,重文複文コーパスが利用できない課題があるため,実験データには電子辞書などから抽出した単文コーパス[17]を用いる. 表10.1に1変数対訳文パターンおよび自動対訳句作成に使用した実験データの内訳を示す.
学習データ(単文) | 日本語 | 英語 |
文数 | 159,998文 | |
単語数 | 1,620,994語 | 1,395,630語 |
異なり単語数 | 42,756語 | 45,634語 |
平均文長 | 10.1語 | 8.7語 |
テストデータ(単文) | 日本語 | 英語 |
文数 | 10,000文 | |
単語数 | 101,349語 | 86,978語 |
異なり単語数 | 12,624語 | 11,977語 |
平均文長 | 10.1語 | 8.7語 |
デベロップメントデータ(単文) | 日本語 | 英語 |
文数 | 1,000文 | |
単語数 | 10,059語 | 8,537語 |
異なり単語数 | 2,791語 | 2,771語 |
平均文長 | 10.1語 | 8.5語 |