Next: 入力に過去の発話を含まない学習データの出力結果評価 Up: 実験結果 Previous: 出力結果目次

応答精度評価

評価は各手法の出力をテストデータから抽出した200文で行った．今回の実験では，過去の発話を含むデータ，含まないデータの両方とも，入力より前の文脈(データ)を見ずに評価し，必要であれば入力より前の文脈を出力に都合の良いように補完する．大きく分けて，○は極端な補完無く評価可能且つ適切な応答，△は一部不適切だが文脈に沿う意図が読み取れる応答， ×は不適切な応答であるが，それだけでの評価は困難であるため，更に詳細な評価基準を定めた．また，評価例を表6.3.1に示す．

評価 : ○
- 現状の発話応答で正しく完結している．
- 意志表示が必要な発話に対し，自分の意志表示を行う相槌．
評価 : △
- 理解可能だが文(文法)が一部破綻．
- 意図が理解可能な範囲で，期待する内容からずれた返答．
- より前の対話があると仮定すれば(極端な文脈を補完すれば)正しいと思わる応答．
- 応答として適切でないが明らかにジョークと取れる応答．
- 応答として適切だが会話の進展が無い．
- 会話として適当なオウム返し．
- 相手に発言を促すだけの相槌．
- 質問に対する聞き返し．
- 返答として適切と思われるが一文で完結してない発話．
評価 :
- 理解可能だが文が完全に破綻．
- 理解不可能．
- 会話として適当で無いオウム返し，相槌．

**表 6.3.1:** 評価例
評価理由	入出力
○ : 現状の発話応答で正しく完結している	発話：こんにちは夏といえばスイカだね
	応答：スイカは大好きですね
△ : 応答として適切だが会話の進展が無い	発話：奥が深いですね
	応答：はい
△ : 意図が理解可能な範囲で期待する内容	発話：スポーツはなさいますか ?
からずれた返答	応答：スポーツは必要です
△ : 会話として適当なオウム返し	発話：マスクメロンは美味しいですね
	応答：美味しいですね
$\times$ : 会話として適当で無いオウム返し，相	発話：沖縄いつ行くの ?
槌	応答：沖縄

Subsections

Next: 入力に過去の発話を含まない学習データの出力結果評価 Up: 実験結果 Previous: 出力結果目次

2018-02-28