ERNIE预训练处理数据

首页版块访问AI主站注册发帖

ERNIE预训练处理数据

小伙创天下642 发布于2019-11 浏览:8231 回复:5

ERNIE预训练处理数据

快速回复

hi，我想要在ERNIE1.0预训练模型的基础上，在自有的数据上进行预训练，我想确认一下几个问题哈：

1.mask是在训练的过程中进行的哈

2.在处理NSP数据的时候，是50%的正例，50%的负例哇？

3.对比bert，bert在数据预处理的时候，有10%的instance的长度是<=max_seq_len，其他90%的数据的长度都是等于max_seq_len的（累加句子直到长度大于等于max_seq_len，然后再切分为两个句子，把大于max_seq_len截断），但是在ERNIE提供的instance中，我发现很大比例的句子都是小于max_seq_len的，我猜测ernie生成instance的策略跟bert有所区别，所以我想请教一下ernie生成instance的策略

非常感谢！！

飞桨深度学习500问

个赞

共5条回复最后由用户已被禁言回复于2022-03

#7忘记了微笑L回复于2022-01

请问楼主有预训练的项目吗，百度有没有发预训练的代码啊

#5小伙创天下642回复于2019-11

好的，thx

#4伍德超回复于2019-11

对#3 小伙创天下642回复

那么我只要按参考bert句子生成的方法就可以了么

可以

#3小伙创天下642回复于2019-11

对#2 伍德超回复

1.ernie1.0使用的是动态mask，即训练过程中mask 2.这个见bert的正负比例 3.这是因为提供的instance为max_seq_len=128的参考实例，不必纠结

展开

那么我只要按参考bert句子生成的方法就可以了么

#2伍德超回复于2019-11

1.ernie1.0使用的是动态mask，即训练过程中mask

2.这个见bert的正负比例

3.这是因为提供的instance为max_seq_len=128的参考实例，不必纠结

快速回复

TOP

操作指南

常见问答

平台公告

经验交流

技术专区

文字识别

人脸识别

语音技术

PaddlePaddle

EasyDL

BML

EasyData

AI Studio

UNIT

人体分析

图像搜索

图像识别

内容审核

自然语言处理

机器人视觉

视频技术

增强现实

知识图谱

智能创作

智能呼叫中心

文心

EdgeBoard

DuerOS

EasyEdge

度目硬件

百度AI市场

Doris

AI赛事

百度之星大赛

AI Studio人工智能竞赛

语言与智能技术竞赛

千言数据集

集思广益

共享工具

头脑风暴

成果展示

智能客服