资讯 社区 文档
百度大脑开源开放CV全栈能力 PaddleCV硬核升级进阶视觉模块
发布日期:2020-03-22 07:41浏览量:6162次

国内唯一开源开放、功能完备的深度学习开源平台——百度飞桨,在智能视觉领域实现重大升级。

此次,PaddleCV最新全景图首度曝光。其中,PaddleDetectionPaddleSegPaddleSlimPaddle Lite重磅升级;全新发布3D视觉和PLSC超大规模分类2项能力。同时,PaddleCV新增了15个产业实践中广泛应用的算法,整体高质量算法数量达到73个;35个高精度预训练模型,总数达到203个。

PaddleCV全景图

Paddle依托于飞桨底层技术以及百度大脑软硬一体AI大生产平台的优势,贯通了从核心技术、生态应用,再到商业化解决方案的整套体系,支撑百度视觉成为目前业内规模最大、技术栈最全面、生态体系最完善的视觉技术平台,形成可自我持续迭代优化的闭环。

如全景图所示,PaddleCV主要从三方面更新核心技术能力

 

核心技术能力升级,基于产业实践真实场景打磨,多场景视觉任务上模型准确率全面提升。

PaddleDetection模块种类与性能全面提升,YOLOv3大幅增强,精度提升4.3%,训练提速40%,推理提速21%;人脸检测模型BlazeFace新增NAS版本,体积压缩3倍,推理速度提速122%;新增IoU损失函数类型,精度再提升1%,不增加预测耗时。在模型方面,新增3个类型,基于COCO数据集的精度最高开源模型CBNet,高达53.3%Libra-RCNN模型精度提升2%Open Images V5成为目标检测比赛最佳单模型。

PaddleSeg新增基于HRNet的高精度图像分割模型,其最大的特点是将图像在整个处理过程中保持高分辨率特征,这和大多数模型所使用的从高分辨率到低分辨率网络产生的低分辨率特征中恢复高分辨率特征有所不同。同时,获得实时语义分割模型Fast-SCNN,它的最大特点是“小快灵”,即该模型在推理计算时仅需要较小的FLOPs,就可以快速推理出一个不错的结果。

Fast-SCNN网络结构图

PaddleCV还新增了3D点云分类、分割和检测的PointNet++PointRCNN模型PointNet++ModelNet40数据集上,PointNet++分类精度高达90%PointRCNNKITTICar)的Easy数据子集上,PointRCNN检测精度高达86.66%。和此前PaddleCV支持的数十种模型一样,基于飞桨框架,开发者无需全新开发代码,只要进行少量修改,就能快速在工业领域实现3D图像的分类、语义分割和目标检测任务。

图像分类新增预训练模型SENet-vdRes2NetHRNet系列模型Res2Net可以更细粒度表示多尺度特征,HRNet全程都可以保持高分辨率。截至目前,飞桨图像分类模型包含了ResNetResNet-vdResNet_ACNetMobileNetShuffleNetEfficientNet系列等20类图像分类算法,105个预训练模型,供目标检测、图像分割等任务应用。其中,ResNet-vd系列相比ResNet系列模型,在不增加推理耗时的情况下,精度提高1%-2%EfficientNet推出了small版本,在GPU上速度提升1.59倍。

 

PaddleCV端到端能力大幅提升,打通了模型开发、训练、压缩、部署全流程,更好地服务于产业实践。

目标检测模型在实际部署时,由于耗时和内存占用,仍然存在很大挑战。基于此,PaddleSlim提供了多种高效的模型压缩方法,助推PaddleDetection性能到达全新高度。使用蒸馏模型压缩方案可提升验证精度2%;裁剪模型压缩方案大幅降低FLOPs;蒸馏+裁剪模型压缩方案,基于COCO数据集进行测试,可以加速2.3倍。此外,PaddleDetection还为开发者提供了从训练到部署的端到端流程,并提供一个跨平台的图像检测模型的C++预测部署方案。

跟目标检测模型类似,语义分割模型在实际部署时也会面临耗时、内存占用的挑战。PaddleSlimPaddleSeg提供了多种分割模型的压缩方案,FLOPs减少51%,提升部署成功率。

针对超大规模人脸识别等应用挑战,正式发布PLSC超大规模分类工具

  • 一方面,通过多机分布式训练可以将全连接层参数切分到更多的GPU卡,从而支持千万类别分类,并且飞桨大规模分类库在理论上可支持分类类别数随着使用GPU卡数的增加而增加。
  • 另一方面,PLSC的训练精度和效率高,在多个数据集上得SOTA的训练精度,同时支持混合精度训练,单机8Nvidia Tesla v100 GPU配置下混合精度训练速度提升42%PLSC让开发者通过五行代码即可实现千万类别分类网络的构建和训练,提供大规模分类任务从训练到部署的全流程解决方案。同时,支持训练GPU卡数的动态调整、Base64格式图像数据预处理。

PaddleCV与飞桨领先分布式训练能力全面结合,对于人脸识别等广泛的场景应用提供了强有力的推动作用3月初,百度开源的戴口罩人脸识别算法中,即通过PLSC实现了快速对数百万ID的训练数据进行训练;同时采用飞桨模型压缩库PaddleSlim进行模型搜索与压缩,产出了高性能的人脸识别模型;最后基于PaddleLite,实现了云端和移动端的快速部署。

 

PaddleCV全面打通了模型算法、开发框架和AI芯片,实现软硬一体化

首先,PaddleCV基于Paddle Lite多硬件支持能力的优势,与昆仑芯片进行深度联合优化,实现端到端软硬一体能力的完全领先和自主可控。以制造业为例,百度与微亿智造联合打造了智能自动化监测设备“表面缺陷视觉检测设备”,区别于传统人工肉眼检查电子零件的方式,既保障质检环节的检查质量与效率,也进一步缓解了由于疫情原因造成的人力缺乏问题。

此次合作,借由百度昆仑芯片、百度智能云的加持,以及基于百度飞桨深度学习平台的目标检测模型,微亿构建完成了一个从智能硬件到算法软件再到算力供给的智能制造解决方案大闭环,具备了端到端软硬一体能力,实现了完全的自主可控。此外,在央视《新闻联播》210日报道中还提到,江苏常州的精研科技借助“表面缺陷视觉检测设备”,解决了工人无法复工情况下的生产难题,在精研科技的精密零部件制造车间,十台无人值守的智能化检测设备24小时工作,比人工检测效率提升近10倍。

百度与微亿智造打造的工业智能质检设备

PaddleCV的重磅升级,飞桨为视觉领域提供了更为强大且应用广泛的工具,加速不同产业的AI落地。除了在视觉领域,飞桨也形成了语音、视觉、NLP等全方位的能力体系。飞桨还充分发挥全硬件平台能力的优势,与昆仑芯片深度融合优化,打造技术领先、自主可控的软硬一体技术平台。

目前,飞桨已累计服务150多万开发者,帮助6.5万企业用户,作为百度大脑的坚实底座在很多关乎国计民生的领域,都发挥着实实在在的重要作用。

 

除了开源能力,百度大脑也开放了CV全线服务

开放能力包括:人脸识别人体分析文字识别OCR图像识别图像效果增强图像审核图像搜索AR/VR视频理解100多项技术能力和场景解决方案。

开发平台包括:iOCR自定义模版文字识别、EasyDL定制化训练和服务平台(定制化图像分类定制化物体检测定制化图像分割)、内容审核平台智能视频监控开发平台。这些都能让您零代码基础、零开发成本,轻松使用 AI 开发平台,操作简单,功能强大。

直达CV领先技术:

飞桨PaddleSlim 1.0 全新发布 带来10大关键特性惊喜

Paddle Lite v2.3版正式上线 模型压缩高达75%

PaddleDetection全面升级 YOLOv3精度速度大幅提升

飞桨图像分割库PaddleSeg 深度解析与应用

 

参看CV应用案例:

连心医疗基于百度飞桨平台  打造肺炎筛查和预评估AI系统

更多案例:不断更新在如上链接

 

学习CV技术能力:

从零基础到精通CV   开源开发部署落地

文末福利:

百度大脑AI Studio已经积累了数以万计的内容和项目, 为了便于大家学习了解PaddleCV开发技术, AI Studio项目小组特别制作汇总了一批PaddleCV精选项目,部分内容可能需要使用GPU环境,点击这里申请就有源源不断的算力资源赠送了:

每个项目都可以直接fork并运行, 动手实践出真知。学习中,也为大家准备了百度定制背包、定制雨伞、蝴蝶不倒杯以及TeslaV100算力卡等多重豪礼。

优质项目概览

PaddleHub口罩检测

基于树莓派4B与Paddle-Lite实现的实时口罩识别

基于paddle的肝脏CT影像分割、PaddleHub 肺炎CT影像分析 

更多经典学习项目:CV入门精选项目合集、进阶精选项目合集、高阶精选项目合集

 

如您有相关咨询,欢迎联系我们 baidu_ai@baidu.com

技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术