ERNIE-Sim
更新时间:2022-08-03
简介
ERNIE-Sim是针对提升中文短文本语义匹配效果预训练模型,模型结构与ERNIE 1.0 base 中文模型相同,模型配置文件和词表文件也与ERNIE 1.0 一致。
技术原理
ERNIE-Sim 字词混合模型在特征建模、负样本选取策略、Loss 设计上进行升级,核心策略升级点介绍如下:
-
字、词多粒度语义特征建模
- 字粒度语义特征缺乏对片段文本精确建模的能力,引入词粒度特征对片段文本进行更精确的语义建模,提升模型的多粒度语义特征建模能力。
- 底层进行多粒度语义特征融合不增加模型复杂度,不增加计算资源消耗。
-
Matrix-wise 训练策略下 hardest negative 负样本筛选
- hard negative sample 的 minning 一直是语义召回的研究热点和核心策略。hardest-negative对每一个query只挑选最难的负样本更新梯度,即batch-1个负样本里挑选和query打分最大的title。例如下图,蓝色的为最难负例:
* hardest-negative的好处是只关注难学习的负样本,使得模型梯度更大,收敛更快。实践证明,hardest-negative最终收敛的效果也显著好于交叉熵的Loss(使用全部负样本)。
-
circle loss
- 新的统⼀的视⻆,将常见的召回任务的ranking loss和classification loss(pairwise与pointwise)统一到一个函数式子里。
- 新的loss同时具有hard positve样本挖掘和hard negative 样本挖掘的功能。
- 相比hingle-loss: 梯度平缓,不陡降;分界面是一个圆,更确定的收敛点;自适应的梯度大小。
模型效果
文心中ERNIE-Sim的支持
目前文心提供ERNIE-Sim的使用支持,模型下载脚本为./wenxin_appzoo/tasks/models_hub/download_ernie_sim_1.0_ch.sh,执行下载脚本,会下载并生成对应的目录, 其中包括配置文件ernie_config.json、词表文件vocab.txt、参数模型文件目录params、模型版本信息文件model.meta。
ERNIE-Sim目前支持的任务类别有:文本匹配。