ERNIE-Sim2.0
更新时间:2022-08-03
简介
ERNIE-Sim2.0 是针对提升中文短文本语义匹配效果预训练模型,其是在 ERNIE-Sim的基础上引入更多、更丰富的预训练数据和基于动态ngram的字词混合粒度对比策略。
技术原理
ERNIE-Sim2.0 字词混合模型的核心策略升级点介绍如下:
-
更多、更丰富的预训练数据
- ERNIE-Sim2.0 基于ERNIE3.0高达4TB的语料进行了训练。语料规模大、来源广并且质量高,涵盖了百科、百家号、知道、贴吧、经验、小说、问答等多种多样的数据。
-
基于动态ngram的字词混合粒度对比策略进行字词多粒度语义特征建模
-
字粒度语义特征缺乏对片段文本精确建模的能力,引入词粒度特征对片段文本进行更精确的语义建模,提升模型的多粒度语义特征建模能力。
-
-
Matrix-wise 训练策略下 hardest negative 负样本筛选
- hard negative sample 的 minning 一直是语义召回的研究热点和核心策略。hardest-negative对每一个query只挑选最难的负样本更新梯度,即batch-1个负样本里挑选和query打分最大的title。例如下图,蓝色的为最难负例:
- hardest-negative的好处是只关注难学习的负样本,使得模型梯度更大,收敛更快。实践证明,hardest-negative最终收敛的效果也显著好于交叉熵的Loss(使用全部负样本)。
-
circle loss
- 新的统⼀的视⻆,将常见的召回任务的ranking loss和classification loss(pairwise与pointwise)统一到一个函数式子里。
- 新的loss同时具有hard positve样本挖掘和hard negative 样本挖掘的功能。
- 相比hingle-loss: 梯度平缓,不陡降;分界面是一个圆,更确定的收敛点;自适应的梯度大小。
模型效果
文心中 ERNIE-Sim2.0的支持
目前文心提供ERNIE-Sim 2.0的使用支持,模型下载脚本为./wenxin_appzoo/models_hub/download_ernie3.0_sim_tiny_ch.sh,执行下载脚本,会下载并生成对应的目录, 其中包括配置文件ernie_config.json、词表文件vocab.txt、参数模型文件目录params、模型版本信息文件model.meta。 ERNIE-Sim 2.0目前支持的任务类别有:文本匹配。