UNIT2.0升级说明(0509~0621)
置顶
tiancorn 发布于2018-06-15 21:31 浏览:671 回复:1
7
收藏
最后编辑于2018-07-01

 

下面红色标注的更新升级,建议广大开发者朋友重点关注了解,欢迎针对新功能及使用平台中遇到的任何问题与我们交流讨论。我们新增了百度Hi群 1617262,欢迎广大开发者加群沟通交流(原QQ群584835350继续使用)。

重点更新:

新上线:PowSLU日志分析、干预学习、样本推荐、新样本标注、2.0闲聊

20180621更新内容:

1、开源离线对话流程管理模块DM-Kit预上线(开源代码https://github.com/baidu/unit-dmkit)


2、对话理解新策略PowSLU上线
PowSLU的整体功能特色:
口语理解方面引入了新的PowSLU系统,这是一种有效融合模板规则技术(对应对话模板)与机器学习技术(对应对话样本)的混合策略模型。基于模板规则的技术擅长于词槽的识别,而基于机器学习的技术擅长于意图识别,PowSLU系统通过整合基于规则模板的词槽识别机制和基于机器学习的意图识别机制,取得了更好的口语理解效果。

与原有SmartSLU(训练数据为对话模板)对比:
PowSLU内部的通过具有由高到低不同置信度等级的多级分析机制,实现了比基于规则模板的SmartSLU更好的召回能力,取得了更高的口语理解精度。PowSLU在多个场景上能够打平并超过原有的SmartSLU。

与原有MLSLU(训练数据为对话样本学习)对比:
PowSLU通过模板规则技术与机器学习技术的整合,能够以远比原有MLSLU更小的成本实现相似的口语理解能力。在合理配置对话意图词槽 和 模板的条件下,通过标注几百到几千条实例,即可实现原有MLSLU系统在标注几十万条实例的条件下所能达到的效果。

PowSLU的使用:
在BOT构建方面与原有的构建方法相同,用户和以前一样为BOT构建指定模板、词典和样本等数据信息,系统会自动进行PowSLU系统的模型训练过程。在BOT应用方面,目前已实现通过API接口调用PowSLU各个级别(Level1~Level3)的能力(后续在UNIT平台的测试对话窗口也将添加Leve1~3的选项,现在默认为Leve1),具体请见对话API参数。PowSLU的Level1档的效果相当于原有的SmartSLU,Level2档和Level3档分别具有更高的召回能力。在具体发挥作用的细节上,较高档相对于较低档多召回的增量部分,在准确率上相对于仅使用较低档时略有下降,但由于相对于较低档能够召回显著更多的情形,所以整体口语理解精度能够取得明显提升。

详细的使用说明请见《UNIT2.0 PowSLU功能特色与使用方法》 https://ai.baidu.com/forum/topic/show/868426

之后的模型训练都会采用PowSLU技术。如果您希望继续沿用旧版的对话样本训练技术,保持原有的召回力度,请通过工单联系我们,并提供如下信息:
工单标题:申请使用旧版模型训练技术
工单描述:BOT ID:XXX(多个BOT用逗号“,”分隔)

  • 补充说明:
    1. 关于准确和召回:通常用准确率和召回率衡量模型效果,准确率指识别结果中正确数量的占比,召回率指正确识别结果在用户所有发起请求数量中的占比。
    2. 如果您不希望近期训练效果有太大变化,建议通过工单方式申请使用旧版模型训练技术。
    3. 预计9月份用户可直接在产品中自行选择模型训练技术,在此之前您可以通过工单方式申请调整模型训练技术。

 3、开放更多词槽系统词典:电影院、影视公司、餐馆、酒店、火车站、景区、路名、广播电台、电视台

4、优化了用户反馈意图错误的相关处理策略。

20180613更新内容:
1、在【效果优化】下增加【模型分析--日志分析】模块,可以针对通过对话接口调用、体验测试窗口产生的对话日志进行分析。

详细的使用说明:https://ai.baidu.com/forum/topic/show/865317

2、【效果优化】下增加【干预学习】并升级了原来的体验测试功能



升级后的对话测试窗口中可以针对识别错误/未识别的意图和词槽进行干预纠正,纠正保存后原话query会立即生效。在干预学习模块可以把干预的对话加入训练数据,重新训练后,干预记录的对话将可能进一步提高BOT模型的泛化理解能力。
也可以在对话过程中(在使用UNIT对话API或SDK的产品中)直接用对话的方式进行干预纠错(用户和BOT都可以主动发起干预纠错):
2.1、针对query数字、字母纠错和接续处理
     U: 打电话13826695368
     S: satisfy_tele
     U: 是5308 ----> (13826695308)

2.2、通过偏旁部首、拆解、组词的方式对query中的单个字进行纠错,解析新query
     U: 我要去习二旗
     S: 听不懂
     U: 是东西的西 ---> (我要去西二旗)


     U: 给陈玉娟打电话
     S: satisfy_tele
     U: 下边是个月的育 ---> (给陈育娟打电话)


     U: 给陈玉娟达电话
     S: 听不懂
     U: 改成提手旁的打 --->(给陈玉娟打电话)
2.3、意图不置信澄清(top1意图置信度低于一定阈值时,系统主动询问用户是否为该意图)
2.4、意图歧义澄清(两个意图置信度接近时,系统主动询问到底是哪一个)
2.5、必填词槽澄清(新建意图--添加词槽时设置的词槽与意图关联属性)
2.6、词槽不置信(词槽置信度低于一定阈值时,系统主动询问该词槽是否正确)

3、训练架构及unibot有若干效果优化和bug修复

4、样本推荐增加推荐结果去重、修复重启服务情况下的重复推荐问题

5、多个词槽更新意图cmd_update……(系统自动生成的)同时出的时候
      a. 必填词槽澄清轮,优先出用户关注的词槽对应的cmd_update
      b. 其他情况下,优先出对话状态里没有的词槽
6、intent_unsure澄清 + 否定;结果由fail_action改为sorry_action

20180606更新内容:
1、在【效果优化-训练数据-对话样本】中新增【样本推荐】功能,利用百度大数据技术和相关策略为缺少训练样本的开发者拓展 对话样本,解决获取对话样本难的问题


推荐对话样本需要选择已有50条样本的样本集作为参考。作为参考的种子样本质量越好,推荐出样本质量越好,所以最好是先收集BOT使用场景中覆盖BOT意图的真实对话样本作为参考样本

2、训练架构升级,进一步提升训练效率和稳定性。

3、unibot 框架修复对异常参数处理不当的bug、底层算子bug修复。

4、增加开放人物子类系统词典,可以在添加人物相关词槽时选择使用。


20180530更新内容:
1、底层后端增加了BOT定时统计、暂停、回收处理机制。超过3天没有任何对话访问的BOT将被停用,并收回资源,被停用后,可自己手动启用
2、底层对BOT相关数据处理策略进行优化,提升安全性。
3、开放人物子类系统词典,可以在定义跟人物相关的槽位时选用:

4、修复了词槽不置信澄清接tag修正不生效bug,及两种意图澄清中出现SYS_XX,中文表述为空导致的话术异常bug。

20180524更新内容:
1、效果优化--训练数据--对话样本 标注交互全新改版,从原来的单个样本逐个点开标注改为在样本列表中直接标注,提高标注效率:


2、上线了组合词槽功能
详细说明请见:https://ai.baidu.com/forum/topic/show/865416
3、开放人物类(6类)、数字、数字单位共8类系统词典,定义词槽的时候可以选择使用。
4、底层策略及平台架构做了一些性能的升级优化,并修复了一些影响稳定性的bug。


20180516更新内容:
1、上线了公用的闲聊BOT,可以在预置技能中体验,使用方法可点击下面的『查看闲聊使用方法』链接

2、在sys_index_unit系统词典中加入“倒数第x集”、“最后x集”类的识别;修复“5分钟”之类不能被识别成sys_unit_time的case

3、效果优化--训练数据--对话模板 后端新增"组合词槽"功能

详细说明:https://ai.baidu.com/forum/topic/show/865416


20180509更新内容:
1、更新词典开放航空公司、航班号、火车车次三个系统词典
如果有做火车票、飞机票查询、购买相关的对话BOT的开发者,可以在定义词槽时选用这新增的三个系统词典:



2、修复"引导至问答意图"BOT回应被触发后 选择不生效,重复触发的bug。

3、策略算法方面更新了:情感分析模型字典;修复了意图不置信澄清的相关bug;优化了去口语化词相关策略;修复了问答(FAQ)的一些bug;

收藏
点赞
7
个赞
共1条回复 最后由伊茨米可编辑于2018-07-01 02:01
#2伊茨米可回复于2018-06-20

强烈推荐!!!

0
TOP
切换版块