Copyable ModelはNMTのための低頻度語処理モデルである[2].
Copyable Modelはトークンを一種類だけではなく,複数種類のトークンを使用する.
これにより未知語となるヌルトークンに,入力と出力で同じ単語であったという情報を残す.
,
,
の順でソース文の低頻度語にナンバーを振る.
ターゲット文の未知語アノテーションは,ソース文の未知語化した単語と同じ単語があれば,
同じトークンに割り当てる.ターゲット文中の低頻度語に対し,原文に同じ単語が無い場合,
対応を持たないヌルトークン
を使用する.
発話と応答の単語に対応関係のない対話モデルではヌルトークン
が
多く出現する.表3.1.1はCopyableModelの変換例である.