导航菜单

如何评测一个智能对话系统 (三)

原标题:如何评价智能对话系统(3)

本文将重点介绍分布式评价方法的具体实现细节,并介绍注释数据的采样、注释问题的设计以及问题背后的技术原理。

1。评估和标记任务的数据收集和问题设计

在前一章中,我们介绍了当前业界流行的智能对话评估方法,包括手动评估和自动评估。本文阐述了不同评估方法的优缺点,说明了人工评估在智能对话评估任务中的重要性和必要性。

之后,我们引入了分布式评估方法。也就是说,一个问题被分解成:语法质量;内容质量;内容相关性;逻辑关联度;情感强度;分歧有六个不同的维度。基于这六个维度,分别对对话系统的对话内容进行评价。

分布式评估方法是将问题分成多个维度,然后将其分成可操作的问题并分别回答。最后,通过合并计算出一个有参考价值的结果。复杂问题的答案往往是辩证的,而分布式统计方法可以处理信息量巨大的复杂问题。

接下来,让我们关注分布式评估方法的具体实现细节。在这一章中,作者将介绍评分系统中评分数据的抽样、评分问题的设计以及问题背后的技术原理。

1。数据样本

要创建有效的评估和标记任务,我们首先需要创建一组数据集,即问题集(或查询集,因为输入不限于问题)。

用于对话评估的查询集通常是一组包含各种形式和类别的自然语句。目前,将有一些开源数据集供研究人员在与自然语言处理相关的竞赛和研究报告中使用。然而,这些数据集大多是英文的。因此,我们需要为评估任务组织一个中文样本数据集。

汉语博大精深。客观地说,一组简单的数据集不能涵盖汉语中所有的对话意图和语言使用场景。因此,理论上,数据样本越多越好(用于训练语言模型的数据通常超过1亿)。

但是,为了便于评估标记任务的执行情况,我们希望标记尽可能少的主题。(这样,贴标人员可以在短时间内完成贴标。因此,用尽可能少的数据包含尽可能多的语言主题成为样本数据的重点和难点。

在这里,我将与你分享我收集和整理样本数据的方法。我希望你能从我的方法中学习,整理出你自己的评估数据集。

由于数据的保密性,作者不方便在此完全披露数据内容(有兴趣的朋友可以搜索“NLPCC2019 C白领对话系统评估任务”了解更多详情)。

当然,作者制作的数据集不一定是最好的。如果有更好的数据集,欢迎大家与作者分享和交流。

2。数据采样和详细描述

数据源:真实用户日志公开数据和互联网社交媒体

获取方法:通过脚本筛选和手动标注

主题分类从1亿级原始数据中获取数据池:

百度前200位帖子通过百度开源信息获取

200个帖子通过百度帖子分类分为22个类别

从22个类别中抽取16个主题和2个非主题类别

样本数据:

对于每个主题,从数据池中抽取100个问题,总共1600个问题

从数据池

样本数据集中收集除16个主题以外的100个问题,总共1700个问题

数据分布:在1700个问题中,200个问题用作测试问题,其余1500个问题用作真实评估问题

3。 注释选项

带有评估的数据集,然后我们需要为注释设计特定的任务。(注释任务)为了更准确和有效地评估对话系统的性能,评估的注释任务需要遵循两个基本原则:客观性和简化性。

对话评估的基本方法是以分布式的方式从6个不同的维度对对话系统进行评估。在评价过程中,我们主要判断被评价的对话系统是否满足这6个维度的信息特征。为了更直观地判断,我们将6维判断分解为12个封闭问题(真或假问题)。封闭式问题可以帮助评价者尽可能避免主观思维模式,并相对快速地给出合理的评价。

以下是作者为对话评估任务设计的12个问题,以及相应的维度:

语法质量:

回复是否符合正确的语法

回复是否有与上述内容相关或重叠的实体词

回复是否有明显的书面表达

内容质量:

回复内容是否不可接受(色情、暴力、虐待、政治等)。)

回复内容明确吗?没有歧义

回复的内容是否合适

内容相关性:回复看起来是否正确理解了上述意图

逻辑相关性:

回复是否可以自然地与上述联系起来

回复是否具有主观态度或明显的情感表达

回复是否可以让人笑

发散:

回复是否发散,是否生成新的内容或实体

回复可以让用户知道下一句要说什么

4。注释类型

注释任务类型包括基本注释和特殊注释。

一般来说,在评估一个答案时,我们会对其内容是否可接受做出有限的判断。如果回复可以接受,请继续从多个维度评估回复。如果回答不可接受,直接跳过其他问题,并将这组问题和答案标记为不合格。

我们将“回复是否符合正确语法”和“回复内容是否不可接受”这两个评价问题整合为特殊的注释类型,而所有其他评价问题都是基本的注释类型。

5。技术理论基础

尽管上述评价注释问题大多是基于分布式对话评价方法产生的,但我们仍然需要足够的技术理论作为参考和支持。

一方面,经典技术理论的支持可以使整个评价方法更有说服力。另一方面,我们可以通过技术理论中的数学模型部分实现对话系统的自动评估。

在有效判断智能对话产品在市场上的表现的同时,也具有一定的科研价值。

语法和内容质量:参考了常用的自然语言处理评价方法理论,如PPL、BLEU、Distinct等。

相关性和散度:通过名词实体变化统计(NER)和LSTM深度学习算法计算多轮对话概率。

情感强度:基于情感分析的一些算法和理论支持。

2。在本章中,我们介绍了分布式对话系统评估方法的具体实现细节,包括数据分类和采样、标注问题设计及其背后的技术原理。我们详细描述了获取注释数据和定位语言数据的主题类型的方法。同时,我们还引入了12个基于6维信息特征分解的闭端问题。我们将数据与问题对应起来,形成一个可操作的统计对话评价评分任务。

不同的对话系统有不同的侧重点。一些对话系统擅长单轮问答对话,而另一些在多轮对话场景中表现更好。在接下来的两篇文章中,我将分别介绍如何使用分布式对话评估方法来评估单轮对话系统和多轮对话系统。

这篇文章最初是由

山大师发表的。每个人都是产品经理。未经允许,禁止转载

图片。它来自Unsplash。根据CC0协议,返回搜狐查看更多“负责任的编辑”: