hi,我想要在ERNIE1.0预训练模型的基础上,在自有的数据上进行预训练,我想确认一下几个问题哈:
1.mask是在训练的过程中进行的哈
2.在处理NSP数据的时候,是50%的正例,50%的负例哇?
3.对比bert,bert在数据预处理的时候,有10%的instance的长度是<=max_seq_len,其他90%的数据的长度都是等于max_seq_len的(累加句子直到长度大于等于max_seq_len,然后再切分为两个句子,把大于max_seq_len截断),但是在ERNIE提供的instance中,我发现很大比例的句子都是小于max_seq_len的,我猜测ernie生成instance的策略跟bert有所区别,所以我想请教一下ernie生成instance的策略
非常感谢!!
收藏
点赞
0
个赞
请登录后评论
TOP
切换版块
请问楼主有预训练的项目吗,百度有没有发预训练的代码啊
好的,thx
可以
那么我只要按参考bert句子生成的方法就可以了么
1.ernie1.0使用的是动态mask,即训练过程中mask
2.这个见bert的正负比例
3.这是因为提供的instance为max_seq_len=128的参考实例,不必纠结