コーパス中での出現頻度が低い要素を低頻度語という. 要素(語彙)が増えるとニューラルネットワークの学習速度が落ちるため,コーパス中で重要でない低頻度語を同一の記号(ヌルトークン)へ置き換えることで学習速度の低下を抑える. しかし,ヌルトークンとなった低頻度語は全て同一の記号となるため, コーパスにおいて本来違う単語が同一単語として扱われる.
そこで本研究では,ヌルトークンを少数のグループへ分割することにより, 応答の精度を向上させる.分割するためのラベルとして品詞情報を用いる.
また,過去の発話を用いた学習も行う. 非タスク指向型の対話は,状況によって許容される応答が変化する. 過去の発話を含まないデータの場合 「うん」等の,応答が必ずしも必要でない発話に対する応答の評価を行いにくい. 過去の発話を使用し文脈をより明確にすることで,評価を容易にすることを試みた.
結果として, 2発話学習における精度評価の○評価は提案手法が最良で0.34(68/200)となった. また,精度○評価内における多様性評価は品詞付加のみの手法(37種類)と提案手法(35種類)が最良だった. 精度○+△評価は品詞付加のみの手法と提案手法が最良であり,品詞付加のみの手法が0.750(150/200)で 提案手法が0.755(151/200)となった. 精度○+△評価内での 多様性が最良の手法は低頻度語処理をしない手法(75種類)だった. また,過去の発話を付加することで評価のしやすさと厳密性が向上した.