NMT学習時の語彙数の制限

9.1より,英辞郎を追加する手法では学習データにおける異なり単語数が非常に多くなることがわかる. 一般に,NMTの学習では,学習データの異なり単語数を語彙数と呼び,学習時の語彙数が多くなる場合には利用する語彙を頻度などを基準に制限する手法が用いられる[1,22].したがって,今回は日英両言語の学習時の語彙数を頻度上位60,000語と設定し,それ以外の単語は全て特殊記号(42#42unk43#43)に置き換えて実験を行った.語彙数を制限した学習データの例を表9.5に示す.


表: 語彙数を制限した学習データの例
  日本語側 英語側
元データ ろば は 優しい 目 を し て いる 。 Donkeys have gentle eyes .
語彙数制限後 42#42unk43#43 は 優しい 目 を し て いる 。 42#42unk43#43 have gentle eyes .
元データ サンディア 山脈 Sandia Mountains
語彙数制限後 42#42unk43#43 山脈 42#42unk43#43 Mountains
元データ 汽車 に 乗る と 酔う 。 I get trainsick .
語彙数制限後 汽車 に 乗る と 酔う 。 I get 42#42unk43#43 .
元データ 造石 tax on brewage
語彙数制限後 42#42unk43#43 tax on brewage