next up previous contents
Next: 目次 Up: thesis_B14T2044U Previous: thesis_B14T2044U   目次

概要

近年,ニューラルネットワークを用いる手法が自然言語処理の多くのタスクで成果を上げている. その中に対話のモデルをニューラルネットワークにより構築したニューラル対話モデルがある[1]. ニューラル対話モデルの学習に用いるデータをコーパスと呼ぶ.

コーパス中での出現頻度が低い要素を低頻度語という. 要素(語彙)が増えるとニューラルネットワークの学習速度が落ちるため,コーパス中で重要でない低頻度語を同一の記号(ヌルトークン$unk_{0}$)へ置き換えることで学習速度の低下を抑える. しかし,ヌルトークン$unk_{0}$となった低頻度語は全て同一の記号となるため, コーパスにおいて本来違う単語が同一単語として扱われる.

そこで本研究では,ヌルトークン$unk_{0}$を少数のグループへ分割することにより, 応答の精度を向上させる.分割するためのラベルとして品詞情報を用いる.

また,過去の発話を用いた学習も行う. 非タスク指向型の対話は,状況によって許容される応答が変化する. 過去の発話を含まないデータの場合 「うん」等の,応答が必ずしも必要でない発話に対する応答の評価を行いにくい. 過去の発話を使用し文脈をより明確にすることで,評価を容易にすることを試みた.

結果として, 2発話学習における精度評価の○評価は提案手法が最良で0.34(68/200)となった. また,精度○評価内における多様性評価は品詞付加のみの手法(37種類)と提案手法(35種類)が最良だった. 精度○+△評価は品詞付加のみの手法と提案手法が最良であり,品詞付加のみの手法が0.750(150/200)で 提案手法が0.755(151/200)となった. 精度○+△評価内での 多様性が最良の手法は低頻度語処理をしない手法(75種類)だった. また,過去の発話を付加することで評価のしやすさと厳密性が向上した.



2018-02-28