百度之星2017资格赛的具体详细介绍大家参考大赛官网即可不再赘述(http://astar2017.baidu.com/index/event_details#sait)
那么资格赛如何提升打分呢?
1. 主办方提供的训练数据要用好
主办方提供了给定场景的意图定义(schema.zip)和训练样本(train_data.zip)
1) 按照schema的说明在UNIT创建意图和词槽,并将提供的词槽词表上传。
2) 把train_data提供的带标注的训练样本,上传到对于的UNIT场景数据中心,并确认标注(可以批量导入并确定哦)。
(注意:不要自己新增、修改意图和槽位的定义,打分系统不认哦)
如果...你还不知道UNIT是啥,怎么使用?要先学习一下了:https://ai.baidu.com/docs#/UNIT-API/top
2. 持续提升效果从资格赛突围
熟悉了UNIT以后都知道了,用户可以给UNIT提供的数据包括对话样本、对话模板、词槽词典。
没错,要提升效果就是要从这几方面入手:
1)新增对话样本
新增更多高质量的对话样本,会带来更好效果。
除了自己去富集与训练数据同分布的样本外,平台还提供了一个隐藏功能:样本推荐,可参考技术贴(http://developer.baidu.com/forum/topic/show?topicId=241620)。
2)新增词槽词典
UNIT本身具有泛化能力,但也用户可以自己新增,对词槽识别有帮助。
3)标注对话模板
对话模板是一种快速生效匹配工具,可以根据训练集抽象高质量的模板提升效果。
如何把握新增和标注的标准呢?大家可以通览一下训练集合,来把握一下尺度,因为训练集和测试集同分布。需要通过对训练数据理解,确保新增标注的数据与训练集分布一致。比如对话样本『类似变形金刚的电影』并不在我们资格赛槽位定位范围,这类样本就可以选择丢弃。
希望以上内容对你有所帮助,加油!
补充一条:训练数据并不是光多标一标就可以了,还要注意训练数据的质量
我们抽样了参赛者标注的部分数据,指出了其中的常见问题,供大家参考
百度之星资格赛参赛者标注数据错误示例
http://developer.baidu.com/forum/topic/show?topicId=241789