ERNIE 2.3介绍
更新时间:2022-07-05
ERNIE 2.3
简介
ERNIE 2.3是针对ERNIE 2.0优化后的一个版本,通过提出多视角对抗预训练语言技术、随机位置编码策略和对比自监督预训练技术,使得模型在8个中文主流下游任务上获得了明显的效果提升。
- Large模型:8个下游任务的平均性能相较于ERNIE 2.0 Large 提升1.95%,相较于ERNIE 2.1 Large 提升 1.16%。
- Base模型:8个下游任务的平均性能相较于ERNIE 2.0 Base 提升2.19%, 相较于ERNIE 2.1 Base提升1.39%。
技术原理
-
多视角对抗预训练语言技术
- 对抗训练是一种引入噪声的训练方式,可以对参数进行正则化,提升模型鲁棒性和泛化能力。其可以应用于预训练阶段和finetune阶段,当前已将该任务适配至阅读理解任务、句对分类任务、句对匹配任务、单句分类任务和序列标注任务。
-
学术界当前对抗训练中引入噪声的方式分为两种:
(1)针对原始文本的噪声引入,例如token替换。
(2)针对embedding的噪声引入,例如在word embedding上直接添加高斯白噪音。
- 本策略在第二种方式的基础上进行了进一步的探索,即将噪声引入至attention weight。如下图所示:
-
随机位置编码策略
该技术通过在传统顺序位置编码上增加随机性,使其同时兼顾了绝对、相对、动态位置编码等不同策略的直推性、数据驱动、参数有效等特点。主要做法为position id起点随机、相邻token间position id间隔随机(1~3)、position id可循环(max id为2048)。如下图所示:
-
对比自监督预训练语言技术
对比学习直接学习数据本身,能够探索数据结构信息来帮助模型学习,缓解传统模型训练策略对直接语义监督的依赖。示意如下所示:
模型效果
- Base模型
- Large模型
文心中ERNIE 2.3的支持
目前文心提供ERNIE 2.3的Base和Large两个版本的中文模型。ERNIE 2.3的模型下载脚本位于./wenxin_appzoo/models_hub/目录下,为download_ernie_2.3_base_ch.sh和download_ernie_2.3_large_ch.sh 。执行下载脚本,会下载并生成对应的目录,其中包含模型参数文件、词表文件、网络配置文件、模型版本信息文件 。