资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

ERNIE-ViL 2.0介绍

ERNIE-ViL 2.0 基于多视角对比学习的跨模态预训练模型

介绍

多模态语义理解是人工智能领域重要研究方向之一,如何让机器像人类一样具备理解和思考的能力,需要融合语言、语音、视觉等多模态的信息。近年来,视觉、语言、语音等单模态语义理解技术取得了重大进展。但更多的人工智能真实场景实质上同时涉及到多个模态的信息。例如,理想的人工智能助手需要根据语言、语音、动作等多模态的信息与人类进行交流,这就要求机器具备多模态语义理解能力。 基于交互结构(cross encoder)的跨模态预训练模型(如ViLBERT、ERNIE-ViL等)在诸多的跨模态任务上取得了很大的效果提升,尤其在如视觉常识推理等复杂的跨模态任务上提升更大。但模态间的交互注意力机制(cross-modal attention)带来大量的计算代价,在大规模跨模态检索等线上系统中的应用面临巨大的挑战。近期,基于对比学习的双塔预训练框架(dual encoder)能够充分利用大规模图文对齐数据,在跨模态检索等任务上展现出较大的效果提升,同时,由于计算效率高,受到了广泛的关注。 传统的视觉-语言预训练技术基于单视角的对比学习,无法学习多种模态间和模态内的关联性,ERNIE-ViL 2.0提出了一种基于多视角对比学习的预训练框架,通过构建丰富的视觉/文本视角,能够同时学习模态间和模态内的多种关联性,从而学习到更鲁棒的跨模态对齐,在跨模态检索等任务上取得了SOTA。

原理

ERNIE-ViL 2.0,图像端encoder使用EfficientNet-L2, 文本端使用ERNIE2.0-large模型。基于多视角对比学习,在大规模的网络无监督数据上进行训练,在中英文多个跨模态检索任务上取得了巨大的效果提升,其中,在中文公开数据集COCO-CN和AIC-ICC取得SOTA。

效果

公开数据集

模型 COCO-CN图文检索(mean Recall) AIC-ICC
UC2 84.60
wenlan 31.13
ERNIE-ViL 双塔 80.85
ERNIE-ViL 2.0 89.04 33.81

自建中文数据集

模型 图文相似度-图文广告数据集(% of AUC) 图文相似度-nlp自建数据集(% of AUC) sohu图文检索(mean Recall) 视频主题分类(Mean F1)
ERNIE-ViL 双塔 81.86 89.63 59.02 79.08
ERNIE-ViL 2.0 85.78 91.14 74.73 82.70

文心中的支持

跨模态检索任务

上一篇
任务模型
下一篇
ERNIE-Layout介绍