来评估评估你训练的技能是否够聪明
tiancorn 发布于2018-08-03 浏览:6307 回复:14
11
收藏
最后编辑于2021-03-25

      在UNIT平台上配置技能意图,配置对话模板、标注对话样本完成特定场景的BOT对话模型训练后 如果要把BOT应用到实际业务中还需要系统科学地对当前BOT的对话理解效果进行测试评估,进而对“是否还需要进一步优化、是否可以上线”进行判断和决策。

下面介绍一套技能对话理解测评方案,帮助大家完成测评的工作,以保障技能上线效果和用户体验。

1、对话意图词槽理解效果评估
1.1、从实际场景中随机富集评估样本集
评估样本集要求

覆盖技能所有意图,且包含真实负例,从实际业务场景中去随机富集并标注后 再调整,比如增加随机样本中缺少的某些新功能意图的样本。
评估集中不可包含训练集中的任何样本。

评估指标:

整体Precision = 意图和词槽都识别正确的正例样本数 / 模型识别为正例的总数
整体recall = 意图和词槽都识别正确的正例样本数 / 评估样本中所有正例样本数

评估集文件格式

天气怎么样?    ASK_WEATHER
周六天气好吗?    ASK_WEATHER      user_time:周六
杭州明天是什么天气?    ASK_WEATHER     user_loc:杭州###user_time:明天
你好       SYS_OTHER

一行为一个样本,顺序依次为:query,意图,词槽。三者之间以’\t’分隔,词槽之间以’###’分隔,编码为utf-8。再次提醒,评估样本建议为真实场景下的样本,请勿凭空构造。

评估集中的每条样本都要标注意图、词槽(没有词槽的只标意图),其中正例样本是指需要识别为场景中意图的样本,例如上面评估查天气的BOT的评估样本中意图为ASK_WEATHER的都是正例样本。而对于当前bot对应场景不应该识别的对话 都可以标为负例样本,同系统预置的负例意图SYS_OTHER 表示。

 
1.2、评估脚本,下载后可以与评估样本放在同一个目录下

链接: https://pan.baidu.com/s/1RGbLivtPghcdbXqhMwKlIA 提取码: 4dm6

该脚本需要输入四个参数。从前往后依次是:评估样本的名称,APIKey,Secret Key,技能的Skill_ID.

获取自己的 API Key / Secret Key和skill_id,具体参见下图。

 

2、查看评估结果,判断可上线还是需继续优化

       结果如下:

      
     使用评估结果结合业务的实际要求,综合判断技能理解效果是否可以达到上线标准。
如判断达不到上线标注可以review测评的详细数据,分析具体是哪些意图、词槽的召回和识别有问题,分析问题的类型分类,并进行有针对的优化,比如有针对性的配置对话模板、标注更多对话样本强化训练。

 

 

收藏
点赞
11
个赞
共14条回复 最后由WISE飞杰回复于2021-03-25
#15WISE飞杰回复于2021-03-25

请问调用脚本时遇到这个错误是什么原因呢:"技能内部错误,错误原因[{skill_id=1075341,error=Invalid parameters. Please check the interface and query encoding !}]"}

0
#14wangwei8638回复于2020-08-03

收藏了

0
#13研爱飞回复于2020-08-03

具体说应该是,运行乱码。

0
#12研爱飞回复于2020-08-03

不会用额,求讲解脚本具体用法

0
#11荒墨丶迷失回复于2020-02-19
#10 134******14回复
两年前的员工就做出了这么优秀的内容,给你们点赞~!

亲 请勿发表一些重复的观点呢 

0
#10134******14回复于2020-02-16

两年前的员工就做出了这么优秀的内容,给你们点赞~!

0
#9134******14回复于2020-02-16

很详细的内容

0
#8荒墨丶迷失回复于2019-12-25

准确率和召回率 需要让大家理解一下

0
#7傲视皇妃灬回复于2019-12-19

啊,不会用,评估集怎么弄啊

 

0
#6荒墨丶迷失回复于2019-09-06

非常适用的脚本 赞一个

0
#5fewrwerf回复于2019-05-18

我的校园卡

 

0
#4SB呵呵风在笑回复于2018-08-07

前排围观。

 

0
#3爱上主丽叶回复于2018-08-06

好东西,用的时候可以直接拿过来copy了。大赞!

0
#2伊茨米可回复于2018-08-03

硬货十足!

0
TOP
切换版块