资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

ERNIE 2.3介绍

ERNIE 2.3

简介

ERNIE 2.3是针对ERNIE 2.0优化后的一个版本,通过提出多视角对抗预训练语言技术、随机位置编码策略和对比自监督预训练技术,使得模型在8个中文主流下游任务上获得了明显的效果提升。

  • Large模型:8个下游任务的平均性能相较于ERNIE 2.0 Large 提升1.95%,相较于ERNIE 2.1 Large 提升 1.16%。
  • Base模型:8个下游任务的平均性能相较于ERNIE 2.0 Base 提升2.19%, 相较于ERNIE 2.1 Base提升1.39%。

技术原理

  • 多视角对抗预训练语言技术

    • 对抗训练是一种引入噪声的训练方式,可以对参数进行正则化,提升模型鲁棒性和泛化能力。其可以应用于预训练阶段和finetune阶段,当前已将该任务适配至阅读理解任务、句对分类任务、句对匹配任务、单句分类任务和序列标注任务。
    • 学术界当前对抗训练中引入噪声的方式分为两种:

      (1)针对原始文本的噪声引入,例如token替换。

      (2)针对embedding的噪声引入,例如在word embedding上直接添加高斯白噪音。

    • 本策略在第二种方式的基础上进行了进一步的探索,即将噪声引入至attention weight。如下图所示:

image.png

  • 随机位置编码策略

    该技术通过在传统顺序位置编码上增加随机性,使其同时兼顾了绝对、相对、动态位置编码等不同策略的直推性、数据驱动、参数有效等特点。主要做法为position id起点随机、相邻token间position id间隔随机(1~3)、position id可循环(max id为2048)。如下图所示:

image.png

  • 对比自监督预训练语言技术

    对比学习直接学习数据本身,能够探索数据结构信息来帮助模型学习,缓解传统模型训练策略对直接语义监督的依赖。示意如下所示:

image.png

模型效果

  • Base模型

image.png

  • Large模型

image.png

文心中ERNIE 2.3的支持

目前文心提供ERNIE 2.3的Base和Large两个版本的中文模型。ERNIE 2.3的模型下载脚本位于./wenxin_appzoo/models_hub/目录下,为download_ernie_2.3_base_ch.sh和download_ernie_2.3_large_ch.sh 。执行下载脚本,会下载并生成对应的目录,其中包含模型参数文件、词表文件、网络配置文件、模型版本信息文件 。