従来の未知語

従来,未知語とは出力結果に入力された単語がそのまま出力される. 例を以下に載せる.

Table 3.1.1: 従来の未知語例
入力文 彼女 は 女学生 です 。
出力文 She is 女学生 .

未知語を処理する手法としてPosUNK[5]がある. まず対訳学習文内にある未知語を全て未知語トークン(PosUN$K_d$)に置き換える. この手法では,相対位置を用いて,対訳学習文内での位置情報を持たせている. 位置情報を用いて翻訳することで対訳学習文内での単語を推定することができる. 他にもBPE[5]やSentencePiece[5]がある. この2つに共通しているのは,対訳学習文の分割に関する手法である.

BPEは頻度の低い単語を複数の文字列に分割することで,単語の頻度を増やし学習しやすくする手法である.SentencePieceはBPEを改良である.