资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

ERNIE-Sim2.0

简介

ERNIE-Sim2.0 是针对提升中文短文本语义匹配效果预训练模型,其是在 ERNIE-Sim的基础上引入更多、更丰富的预训练数据和基于动态ngram的字词混合粒度对比策略。

技术原理

ERNIE-Sim2.0 字词混合模型的核心策略升级点介绍如下:

  • 更多、更丰富的预训练数据

    • ERNIE-Sim2.0 基于ERNIE3.0高达4TB的语料进行了训练。语料规模大、来源广并且质量高,涵盖了百科、百家号、知道、贴吧、经验、小说、问答等多种多样的数据。
  • 基于动态ngram的字词混合粒度对比策略进行字词多粒度语义特征建模

    • 字粒度语义特征缺乏对片段文本精确建模的能力,引入词粒度特征对片段文本进行更精确的语义建模,提升模型的多粒度语义特征建模能力。

      image.png

  • Matrix-wise 训练策略下 hardest negative 负样本筛选

    • hard negative sample 的 minning 一直是语义召回的研究热点和核心策略。hardest-negative对每一个query只挑选最难的负样本更新梯度,即batch-1个负样本里挑选和query打分最大的title。例如下图,蓝色的为最难负例:

    ernie_sim_2.png

    • hardest-negative的好处是只关注难学习的负样本,使得模型梯度更大,收敛更快。实践证明,hardest-negative最终收敛的效果也显著好于交叉熵的Loss(使用全部负样本)。
  • circle loss

    • 新的统⼀的视⻆,将常见的召回任务的ranking loss和classification loss(pairwise与pointwise)统一到一个函数式子里。
    • 新的loss同时具有hard positve样本挖掘和hard negative 样本挖掘的功能。
    • 相比hingle-loss: 梯度平缓,不陡降;分界面是一个圆,更确定的收敛点;自适应的梯度大小。

    ernie_sim_3.png ernie-sim 4.png

模型效果

image.png

文心中 ERNIE-Sim2.0的支持

目前文心提供ERNIE-Sim 2.0的使用支持,模型下载脚本为./wenxin_appzoo/models_hub/download_ernie3.0_sim_tiny_ch.sh,执行下载脚本,会下载并生成对应的目录, 其中包括配置文件ernie_config.json、词表文件vocab.txt、参数模型文件目录params、模型版本信息文件model.meta。 ERNIE-Sim 2.0目前支持的任务类别有:文本匹配

上一篇
ERNIE-Sim
下一篇
ERNIE-IE 2.0