ERNIE 3.0-1.5B
更新时间:2022-01-28
ERNIE 3.0-1.5B
基本介绍
ERNIE 3.0-1.5B是针对理解任务训练的大模型,模型规模处于ERNIE-Large和ERNIE 3.0(10B)模型之间。通过增大模型规模以及提出Pretrain-RDrop技术,使得模型在多个中文主流下游任务上获得了明显的效果提升。在6大中文数据集上,1.5B模型相对ERNIE 2.3 Large模型平均提升+0.49%。
技术原理
模型结构
-
模型结构由PostLN结构改为PreLN结构,解决大规模模型训练不收敛问题。
-
训练策略
- 引入4TB大规模数据进行训练
-
引入RDrop-For-Pretrain策略:训练阶段forward两次,利用KL散度拉近两次forward的MLM任务和MSOP任务的概率分布,从而提高模型鲁棒性。
-
模型效果
6大中文数据集-Finetune
模型 | avg | XNLI | LCQMC | DBQA | CMRC2018 | DuReader | DRCD | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
dev-acc | test-acc | dev-acc | test-acc | dev-mrr | dev-f1 | test-mrr | test-f1 | dev-em | dev-f1 | dev-em | dev-f1 | dev-em | dev-f1 | test-em | test-f1 | ||
ERNIE 2.3 Large | 85.59 | 83.11 | 82.44 | 90.67 | 88.65 | 96.26 | 86.68 | 96.26 | 87.37 | 76.12 | 91.98 | 67.00 | 79.25 | 91.62 | 96.06 | 91.29 | 95.65 |
ERNIE 3.0-百亿 | 86.29(+0.70) | 84.42 | 83.77 | 90.29 | 90.38 | 96.71 | 87.57 | 96.50 | 88.49 | 75.30 | 92.29 | 67.69 | 79.66 | 91.54 | 96.45 | 91.41 | 95.84 |
ERNIE 3.0-1.5B | 86.08(+0.49) | 84.35 | 83.59 | 91.57 | 89.04 | 96.33 | 87.46 | 96.27 | 87.36 | 74.86 | 92.32 | 68.22 | 80.02 | 92.18 | 96.52 | 92.17 | 96.52 |