如何突围百度之星开发者大赛的资格赛?
z00ux 发布于2017-07 浏览:3071 回复:1
0
收藏

百度之星2017资格赛的具体详细介绍大家参考大赛官网即可不再赘述(http://astar2017.baidu.com/index/event_details#sait

   

那么资格赛如何提升打分呢?

   

   1. 主办方提供的训练数据要用好

  主办方提供了给定场景的意图定义(schema.zip)和训练样本(train_data.zip

  1) 按照schema的说明在UNIT创建意图和词槽,并将提供的词槽词表上传。

  2) train_data提供的带标注的训练样本,上传到对于的UNIT场景数据中心,并确认标注(可以批量导入并确定哦)。

     

(注意:不要自己新增、修改意图和槽位的定义,打分系统不认哦)

  如果...你还不知道UNIT是啥,怎么使用?要先学习一下了:https://ai.baidu.com/docs#/UNIT-API/top

      

   2. 持续提升效果从资格赛突围

  熟悉了UNIT以后都知道了,用户可以给UNIT提供的数据包括对话样本、对话模板、词槽词典。

  没错,要提升效果就是要从这几方面入手:

  1)新增对话样本

    新增更多高质量的对话样本,会带来更好效果。

    除了自己去富集与训练数据同分布的样本外,平台还提供了一个隐藏功能:样本推荐,可参考技术贴(http://developer.baidu.com/forum/topic/show?topicId=241620)。

  2)新增词槽词典

    UNIT本身具有泛化能力,但也用户可以自己新增,对词槽识别有帮助。

  3)标注对话模板

    对话模板是一种快速生效匹配工具,可以根据训练集抽象高质量的模板提升效果。

  

  如何把握新增和标注的标准呢?大家可以通览一下训练集合,来把握一下尺度,因为训练集和测试集同分布。需要通过对训练数据理解,确保新增标注的数据与训练集分布一致。比如对话样本『类似变形金刚的电影』并不在我们资格赛槽位定位范围,这类样本就可以选择丢弃。

    

 希望以上内容对你有所帮助,加油!


收藏
点赞
0
个赞
共1条回复 最后由孙炣回复于2017-07
#2孙炣回复于2017-07

补充一条:训练数据并不是光多标一标就可以了,还要注意训练数据的质量

我们抽样了参赛者标注的部分数据,指出了其中的常见问题,供大家参考

百度之星资格赛参赛者标注数据错误示例

http://developer.baidu.com/forum/topic/show?topicId=241789

0
TOP
切换版块