资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

ERNIE 3.0-Tiny

ERNIE 3.0-Tiny

简介

由于预训练语言模型越来愈大,过大的参数量导致了模型难以使用。ERNIE 3.0-Tiny 通过知识蒸馏的方式将大模型压缩到若干个不同大小的小模型,以便满足不同的需求。同时,ERNIE 3.0-Tiny采用task-agnostic蒸馏方案,与以往蒸馏不同,ERNIE 3.0-Tiny 模型开箱即用,在下游任务上直接finetune就能取得不错的效果,无需额外使用下游老师模型进行蒸馏。

技术原理

distill.png

基本蒸馏框架如上,通过一个老师模型同时教导若干个小模型的方式从而在蒸馏阶段一次性产生多种尺寸的学生模型,保证了学生模型的尺寸丰富性,方便下游任务中的落地使用。ERNIE-Tiny 3.0 使用了task-agnostic蒸馏方案,即在下游任务上无需老师模型进行额外蒸馏,直接使用学生模型在下游任务finetune即可。下图展现了学生模型在不同的数据集下的效果。6L768H学生模型在多个数据集下已达到Base水平,6L384H模型在部分数据集上可以超过公开的6L768H模型。

模型效果

下图展示了和其他公开模型的效果对比

result2.png

文心暂仅提供6L768H的模型

模型速度

c.png

实验设置:
Max Sequence Length: 256(长度不足时,pad到最大长度)
任务类型: XNLI Classification
显卡环境:单卡V100
混合精度(AMP):开

Train 速度以及显存均为在bsz为32下测试得出
Train 吞吐量均为在显存不超的情况下尽可能加大bsz下测试得出
Eval 速度以及显存均为在bsz为512下测试得出

括号里面为比例,Base模型为基线。

模型使用

  • ERNIE 3.0 Tiny 6L768H的模型下载脚本位于./wenxin_appzoo/models_hub/目录下,为download_ernie_3.0_tiny_ch.sh。执行下载脚本,会下载并生成对应的目录,其中包含模型参数文件、词表文件、网络配置文件、模型版本信息文件。
  • ERNIE 3.0 Tiny目前支持的任务类型有文本分类、文本匹配、序列标注、阅读理解
  • ERNIE 3.0 Tiny提供了12层以下一系列不同大小的模型,性能和效果详见模型速度章节。
上一篇
ERNIE 3.0-1.5B
下一篇
ERNIE-Word