资讯 社区 文档
CVPR首个大模型研讨会顺利召开,吸引超1000支队伍参与文心大模型国际比赛
发布日期:2023-06-20 16:00浏览量:581次

CVPR 作为计算机视觉和模式识别领域的世界级学术顶会,不仅是学者们展示前沿科技成果的学术会议,也是企业界探索前沿应用的一大平台。近年来,随着大模型技术的爆发式发展,基于大模型技术的创新应用正逐步在产业界释放出巨大价值空间。作为人工智能技术领域的领军者与深耕者,百度在大模型技术领域拥有强大的技术优势和深厚技术积累,百度自主研发的产业级知识增强大模型体系文心大模型已经建设了完整的大模型体系涵盖基础大模型、任务大模型、行业大模型等,全面满足产业应用需求。作为文心大模型的核心之一,文心 · CV 大模型 VIMER 已广泛应用在自动驾驶、云智一体、移动生态等核心业务。

百度召开CVPR首届大模型研讨会

共探大模型技术现状和未来

为了进一步推动视觉大模型技术的发展,百度联合浙江大学、香港大学、中科院空天院在 CVPR 2023 上共同举办了首届大模型 Workshop,大模型领域内的顶级学者和精英们共同探讨了大模型技术的最新进展和未来动向,并收录了来自百度、剑桥大学等企业/高校的论文。

在6月19日举行的 CVPR 2023 Foundation Model Workshop 上,来自百度的资深工程师、中科院空天院客座研究员希滕教授和百度主任架构师张刚分别进行了开幕式和闭幕式致辞。希滕教授还重点介绍了百度文心 CV 大模型及文心交通大模型。

来自华为的资深研究员谢凌曦介绍了 NLP 大模型与 CV 大模型的区别并提出了 CV 大模型未来的机遇与挑战。

千支队伍逐鹿产业级大模型盛赛

产学共探技术革新之道

智能交通领域首个多任务大模型国际比赛的举办是今年CVPR 2023大模型研讨会的一大亮点,竞赛从Foundation Model领域的关键问题出发,设置了多任务大模型赛道及跨模态大模型赛道,吸引了全球35个国家和地区、超过1500人参赛,征集到来自美团、网易、大华等公司以及清华大学、香港科技大学、华中科技大学、中科院等高校的众多解决方案。

近年来,智慧汽车、人工智能等产业发展,为智能交通发展创造了良好的发展机遇。智能交通相关技术已经渗透到我们的日常生活中,但是现有大模型的多任务处理模式以及传统的感知方法(如分类、检测、分割等)无法满足我们对更广交通场景以及更高自动驾驶水平的追逐。百度从当前实际技术研究中的关键问题出发,设置了两大赛道

赛道一:统一多任务大模型赛道 

本赛道旨在解决多任务、多数据的合并冲突问题。对于设计精良的网络结构和损失函数,多个任务共同训练能大幅提升模型的泛化性。由于特定任务的数据存在noise,仅使用单一任务的数据进行训练,存在过拟合的风险。统一多任务大模型通过将多个任务的数据整合进行统一训练,能够对不同任务的noise做一个平均,进而使模型学到更好的特征。为了进一步探索统一多任务大模型的能力上限,本赛道以交通场景典型任务为题,覆盖了分类、检测、分割三大类CV任务至单一大模型中,使得单一大模型具备能力的同时获得领先于特定单任务模型的性能。最终Allin one大模型在分类、检测、分割任务上的加权指标会作为获奖标准。

赛道二:跨模态图像检索赛道 

本赛道旨在提升文本图像检索的精度。在交通场景中高性能的图像检索能力对于交通执法、治安治理具有十分重要的作用,传统的图像检索方式通常使用先对图像进行属性识别再通过与期望属性的对比实现检索能力。随着多模态大模型技术的发展,文本与图像的表征统一和模态转换已有广泛应用,使用该能力可以进一步提升图像检索的准确性和灵活性。

研讨会上,希滕教授宣布了今年Foundation Model国际比赛的胜出队伍,最终CTRL队、njust队分别获得了多任务大模型赛道及跨模态大模型赛道的冠军,并现场进行了技术方案的分享。

随着CVPR 2023 大模型研讨会的正式落幕,会议中探讨的应用场景正在陆续走向行业落地。百度作为人工智能技术领域的领军者与深耕者,在修炼好AI技术“内功”的同时,也将不断向各行业场景输出技术能力与解决方案,进一步推动产业智能化升级发展。

 心·CV大模型地址

https://github.com/PaddlePaddle/VIMER
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术