過剰生成を含む候補文の選択について

NMTの出力文の特徴の1つとして「過剰生成」がある. これは表8.13に示すように,同じ単語が複数回,出力に現れることを指す. 過剰生成はNMTの出力数を増やすほど,現れる傾向がある. 多くの場合,RSMTは過剰生成を含む候補文を選択しないことが望ましい.
Table: 過剰生成を含む出力の例
入力文 左舷に塔が見えてきた。
参照文 We opened a tower to the port .
出力 The tower was sighted in sight in sight .

しかし第6章の実験において,過剰生成を含む候補文が選択される入力文が増加した. また,過剰生成が原因で人手評価を×とした数を表8.14に示す.


Table: 過剰生成が理由で人手評価×とした数
PMI 6
Joint 26
Jaccard 7
Dice 14
Simpson 20

それぞれの手法で過剰生成が精度低下の原因となった入力が存在する. その中でも,JointとSimpsonは過剰生成が精度低下の原因として多かったことを表8.14が示している. この問題は式(8.1)を用いることで解決できる可能性がある.