next up previous contents
Next: シリーズ型質問文への対応 Up: 関連研究 Previous: 関連研究   目次

Copyable Model


Copyable ModelはNMTのための低頻度語処理モデルである[2]. Copyable Modelは$unk$トークンを一種類だけではなく,複数種類のトークンを使用する. これにより未知語となるヌルトークンに,入力と出力で同じ単語であったという情報を残す.

$unk_{1}$$unk_{2}$$unk_{3}$の順でソース文の低頻度語にナンバーを振る. ターゲット文の未知語アノテーションは,ソース文の未知語化した単語と同じ単語があれば, 同じトークンに割り当てる.ターゲット文中の低頻度語に対し,原文に同じ単語が無い場合, 対応を持たないヌルトークン$unk_{0}$を使用する. 発話と応答の単語に対応関係のない対話モデルではヌルトークン$unk_{0}$が 多く出現する.表3.1.1はCopyableModelの変換例である.


表 3.1.1: Copyable Modelの変換例
低頻度語 ソース文 ターゲット文
$unk_{0}$: 5月 $unk_{0}$ が 待ち遠しい です こいのぼり を 上げる ん です か ?
$unk_{0}$: ぶら下げ,$unk_{1}$: 蚊取り線香 $unk_{1}$$unk_{0}$ $unk_{1}$ は ほしい です ね
$unk_{1}$: 神様,$unk_{2}$: 試験 $unk_{1}$$unk_{2}$ って 何 よ $unk_{1}$$unk_{2}$ が ある ん です か ?




2018-02-28