next up previous contents
Next: 過去発話の付与 Up: 提案手法 Previous: 提案手法   目次

ヌルトークンへの品詞情報付加

本実験では低頻度語処理の際,Copyable Modelの未知語処理を行った後, 品詞情報を用いて ヌルトークン$unk_{0}$を少数のグループへ分割する.

これにより,低頻度語処理後のコーパスに残すことができる情報が増加する. 品詞情報の付加はMecab[9]で容易に行うことができるため, 細分化の方法として採用した.

4.1.1は本研究の手法での低頻度語処理例である.


表 4.1.1: 提案手法の変換例
低頻度語 ソース文 ターゲット文
$unk_{1}$:独自,$unk_{動詞}$:重ねる $unk_{1}$$unk_{動詞}$ かも しれ ない $unk_{1}$ に 心の哲学 を 研究 なさっ て いる の です ね
$unk_{名詞}$:A(人名),$unk_{1}$: 市ヶ谷 $unk_{名詞}$$unk_{1}$ な ん だ よ ね $unk_{1}$ か ー
$unk_{名詞}$:2月11日,$unk_{1}$: 建国 $unk_{名詞}$ は ー なんだろう $unk_{1}$ 記念 か $unk_{1}$ 記念 か



2018-02-28