next up previous contents
Next: 実験結果 Up: 実験環境 Previous: 使用コーパス   目次

実験方法

コーパスに出現する低頻度語を,複数の手法により処理し, その出力の評価を行う. RNN(LSTM)の文生成モデルであるseq2seq[5]を使用する.

本研究では,入力側(原言語)のみにおいて低頻度語処理を行うが, 比較のために入力,出力ともに低頻度語処理したモデルの実験も行う.

本実験では,過去の発話を含まないデータにおける訓練データの発話(入力側)データ内において一度しか出てこない形態素を低頻度語と定義する. また,入出力両方の低頻度語処理を行う場合,応答(出力側)データの低頻度語は応答データ内において一度しか出てこない形態素を低頻度語と定義する. 過去の発話は本来の発話(入力データ)の直前1名分の発話とする. 低頻度語数に差を出さないために,過去の発話を含むデータの低頻度語は 過去の発話を含まないデータの低頻度語と同一にする.

ニューラルネットワークはOpen-NMTを使用した[8]. バッチサイズは64,epoch数は50とした.

5.3.1は各手法の低頻度語変換例である.


表 5.3.1: 各手法の変換例
手法 ソース文(発話) ターゲット文(応答)
原文 電圧 を 換える だけ で 普通 に 今 持っ て いる の が 使える の ? 電圧 が もし 向こう で も オッケー だっ たら
低頻度語を全てヌルトークンへ変換 $unk_{0}$$unk_{0}$ だけ で 普通 に 今 持っ て いる の が 使える の ? 電圧 が もし 向こう で も オッケー だっ たら
Copyable Model $unk_{1}$$unk_{0}$ だけ で 普通 に 今 持っ て いる の が 使える の ? $unk_{1}$ が もし 向こう で も オッケー だっ たら
提案手法 $unk_{1}$$unk_{動詞}$ だけ で 普通 に 今 持っ て いる の が 使える の ? $unk_{1}$ が もし 向こう で も オッケー だっ たら



2018-02-28