実験設定

本節における実験では, NMTの学習データに多変数対訳句を追加する手法(以下,+多変数対訳句と呼ぶ)および NMTの学習データに1変数対訳句を追加する手法(以下,+1変数対訳句と呼ぶ)を, 対訳文のみを学習データに追加するベースラインと比較する.

また,+1変数対訳句の手法において,重文複文コーパスが利用できない課題があるため,実験データには電子辞書などから抽出した単文コーパス[17]を用いる. 表10.1に1変数対訳文パターンおよび自動対訳句作成に使用した実験データの内訳を示す.


表: 実験データの内訳
学習データ(単文) 日本語 英語
文数 159,998文
単語数 1,620,994語 1,395,630語
異なり単語数 42,756語 45,634語
平均文長 10.1語 8.7語
テストデータ(単文) 日本語  英語
文数 10,000文
単語数 101,349語 86,978語
異なり単語数 12,624語 11,977語
平均文長 10.1語 8.7語
デベロップメントデータ(単文) 日本語 英語
文数 1,000文
単語数 10,059語 8,537語
異なり単語数 2,791語 2,771語
平均文長 10.1語 8.5語