资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

ERNIE-Sim

简介

ERNIE-Sim是针对提升中文短文本语义匹配效果预训练模型,模型结构与ERNIE 1.0 base 中文模型相同,模型配置文件和词表文件也与ERNIE 1.0 一致。

技术原理

ERNIE-Sim 字词混合模型在特征建模、负样本选取策略、Loss 设计上进行升级,核心策略升级点介绍如下:

  • 字、词多粒度语义特征建模

    • 字粒度语义特征缺乏对片段文本精确建模的能力,引入词粒度特征对片段文本进行更精确的语义建模,提升模型的多粒度语义特征建模能力。
    • 底层进行多粒度语义特征融合不增加模型复杂度,不增加计算资源消耗。
    • ernie.png
  • Matrix-wise 训练策略下 hardest negative 负样本筛选

    • hard negative sample 的 minning 一直是语义召回的研究热点和核心策略。hardest-negative对每一个query只挑选最难的负样本更新梯度,即batch-1个负样本里挑选和query打分最大的title。例如下图,蓝色的为最难负例:

ernie sim .png

* hardest-negative的好处是只关注难学习的负样本,使得模型梯度更大,收敛更快。实践证明,hardest-negative最终收敛的效果也显著好于交叉熵的Loss(使用全部负样本)。
  • circle loss

    • 新的统⼀的视⻆,将常见的召回任务的ranking loss和classification loss(pairwise与pointwise)统一到一个函数式子里。
    • 新的loss同时具有hard positve样本挖掘和hard negative 样本挖掘的功能。
    • 相比hingle-loss: 梯度平缓,不陡降;分界面是一个圆,更确定的收敛点;自适应的梯度大小。

    ernie sim 3.png

ernie sim 4.png

模型效果

ernie sim 5.png

文心中ERNIE-Sim的支持

目前文心提供ERNIE-Sim的使用支持,模型下载脚本为./wenxin_appzoo/tasks/models_hub/download_ernie_sim_1.0_ch.sh,执行下载脚本,会下载并生成对应的目录, 其中包括配置文件ernie_config.json、词表文件vocab.txt、参数模型文件目录params、模型版本信息文件model.meta。

ERNIE-Sim目前支持的任务类别有:文本匹配

上一篇
领域模型
下一篇
ERNIE-Sim2.0