资讯 社区 文档 控制台
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术
AR与VR
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
信息服务
智能园区

PaddleX-模型选型

重要通知

在AI Studio平台,

  • 模型库中,对于支持PaddleX的模型,原先的 【创建模型产线】入口现已调整为【模型开发-零代码开发】。
  • 您也可以选择到项目大厅【创建项目-模板任务】继续PaddleX之旅!
  • PaddleX项目管理从【个人中心-我的模型产线】调整至【项目-我的项目-PaddleX],大家已创建的PaddleX模型产线已收录至“我的项目”中。 image.png

模型选型

本章节提供模型选型的参考数据表,目前包括通用图像分类、通用图像分割、通用目标检测、通用OCR、通用单目3D目标检测、通用多目3D目标检测、通用点云3D目标检测、通用时序预测、通用时序异常检测、通用时序分类等几大类通用任务场景,以及PP-ShiTuV2通用图像识别系统、PDF转Word等多模型综合应用方案。后续PaddleX将提供覆盖更多任务场景和模型的选型参考,敬请期待!

通用图像分类

图像分类是计算机视觉领域的基础任务,实现对未知类别的图像进行分类。PaddleX目前提供了9个模型,满足对性能和效率的不同需求,具体见下表。

模型 Top1 Acc(%) GPU 推理耗时(ms) CPU 推理耗时(ms) 模型存储大小(M) 启动训练
PP-HGNetV2_B6 86.30 10.46 240.18 288 训练
CLIP_vit_base_patch16_224 85.39 12.03 234.85 331 训练
PP-HGNetV2_B4 83.57 2.45 38.10 76 训练
SwinTransformer_base_patch4_window7_224 83.37 12.35 - 342 训练
PP-HGNet_small 81.51 4.24 108.21 94 训练
PP-HGNetV2_B0 77.77 0.68 6.41 23 训练
ResNet50 76.50 3.12 50.90 98 训练
PP-LCNet_x1_0 71.32 1.01 3.39 7 训练
MobileNetV3_small_x1_0 68.24 1.09 3.65 12 训练

注:以上精度指标为 ImageNet1k 验证集 Top1 Acc,GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为8,精度类型为 FP32。

通用图像分割

图像分割任务作为计算机视觉基础任务之一,被广泛用于街景分割、医学图像分割、道路分割等场景。考虑精度和性能的不同需求,PaddleX目前提供了 OCRNet、PP-LiteSeg两种模型,具体见下表。

模型 mIoU (%) GPU 推理耗时(ms) CPU 推理耗时(ms) 模型存储大小 (M) 启动训练
OCRNet 82.15 87.97 2180.76 270 训练
PP-LiteSeg 77.04 5.98 140.02 31 训练

注:以上精度指标测量自Cityscapes数据集,GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为8,精度类型为 FP32。

通用目标检测

目标检测任务是计算机视觉领域的核心问题,用于找出图像中所有感兴趣的目标(物体),并确定它们的类别和位置。PaddleX目前提供了6个模型,满足对性能和效率的不同需求,具体见下表。

模型 mAP(%) GPU 推理耗时(ms) CPU 推理耗时(ms) 模型存储大小(M) 启动训练
rt_detr_hgnetv2_h 56.3 100.65 8451.92 471 训练
rt_detr_hgnetv2_l 53.0 27.89 841.00 125 训练
ppyoloe_plus_s 43.7 8.11 137.23 31 训练
ppyoloe_plus_l 52.9 29.67 700.97 200 训练
picodet_l_640_lcnet 42.6 10.09 129.32 23 训练
picodet_s_320_lcnet 29.1 3.17 13.36 5 训练

注:以上精度指标为 COCO2017 验证集 mAP(0.5:0.95),GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为8,精度类型为 FP32。

通用OCR

OCR任务用于解决文字识别任务,提取图片中的文字信息以文本形式输出。考虑精度和性能的不同需求,PaddleX目前提供了针对PP-OCRv4的 server 和 mobile 两种方案,具体见下表。

模型 检测 Hmean(%) 识别 Avg Accuracy(%) GPU 推理耗时(ms) CPU 推理耗时(ms) 模型存储大小(M) 启动训练
PP-OCRv4-server 82.69 79.20 22.20346 2662.158 198 (文本检测/文本识别)
PP-OCRv4-mobile 77.79 78.20 2.719474 79.1097 15 (文本检测/文本识别)

注:评估集是PaddleOCR自建的中文数据集,覆盖街景、网图、文档、手写多个场景,其中文本识别包含1.1w张图片,检测包含500张图片。GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为8,精度类型为 FP32。

通用单目3D目标检测

单目3D目标检测作为3D目标检测的任务之一,基于单张视觉图像预测目标的3D框,通用单目3D目标检测提供了CaDDN方案,具体见下表。

模型 3DmAP Mod (%) GPU 推理耗时(ms) CPU 推理耗时(ms) 模型存储大小 (MB) 启动训练
CaDDN 7.86 182.4 - 121 训练

注:精度指标测量自KITTI验证集。GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32。由于存在自定义算子,CPU 推理暂不支持。

通用点云3D目标检测

点云3D目标检测作为3D目标检测的任务之一,基于点云数据预测目标的3D框,通用点云3D目标检测提供了CenterPoint方案,具体见下表。

模型 3DmAP (%) NDS (%) GPU 推理耗时(ms) CPU 推理耗时(ms) 模型存储大小 (MB) 启动训练
CenterPoint 50.79 61.30 38.96 - 24.5 训练

注:精度指标测量自Nuscenes验证集。GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32。由于存在自定义算子,CPU 推理暂不支持。

通用多目3D目标检测

多目3D目标检测作为3D目标检测的任务之一,基于多张视觉图像预测目标的3D框,PaddleX目前提供了PETRv1和PETRv2方案,需按顺序提供正前方、右前方、左前方、正后方、左后方和右后方的图像,其中PETRv2应同时提供前一时刻的图像序列。具体见下表。

模型 3DmAP (%) NDS GPU 推理耗时(ms) CPU 推理耗时(ms) 模型存储大小 (MB) 启动训练
PETRv1 38.35 43.52 328.52 22341.2 345 训练
PETRv2 41.05 49.86 790.78 43015.9 121 训练

注:精度指标测量自Nuscenes验证集。GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为8,精度类型为 FP32。

通用时序预测

时序在每日的生活、工作中随处可见,比如CPU负载、上证指数、商场每天的人流量、商品每日的价格等都属于时间序列,总的来说时间序列就是按时间记录的有序数据,而时序预测就是运用历史的数据推测出事物的发展趋势。通用时序预测提供了9种模型供大家选择,具体见下表。其中PP-TS是飞桨团队提出的一种基于启发搜索和集成学习的时序预测模型,达到了比此前的同类型模型更好的性能,推荐大家试用。

模型 mse mae 模型存储大小(M) 启动训练
DLinear 0.386 0.445 80k 训练
RLinear 0.408 0.456 44k 训练
Nlinear 0.411 0.459 44k 训练
PatchTST 0.291 0.380 2.2M 训练
TimesNet 0.284 0.386 5.2M 训练
TiDE 0.376 0.441 35M 训练
Nonstationary 0.385 0.463 61M 训练
XGBoost 0.426 0.470 15M 训练
PP-TS 0.210 0.318 63M 训练

注:精度指标测量自ECL数据集,输入输出长度均为96,预测单元目标是MT_320。

通用时序异常检测

时序异常检测是时序分析中的一个重要且常见的任务,通常基于无监督训练,使用深度模型学习重建正常时间序列,与异常序列进行对比,得到异常点。PaddleX目前提供了1种时序异常检测模型,具体见下表。

模型 precision recall f1_score 模型存储大小(M) 启动训练
TimesNet_AD 0.899 0.935 0.917 5.4M 训练

注:精度指标测量自SWAT数据集,重建长度为100。

通用时序分类

时序分类是时序分析中的一个重要且常见的任务,根据对序列的特征分析,得到不同序列的类别。PaddleX目前提供了1种时序分类模型,具体见下表。

模型 acc(%) 模型存储大小(M) 启动训练
TimesNet_CLS 67.9 5.3M 训练

注:精度指标测量自UEA/FaceDetection数据集

PP-ShiTuV2通用图像识别系统

图像识别是计算机视觉领域重要的基础任务,目前主要有目标检测和图像分类技术,然而上述技术无法应对数据类别变动频繁、类别数据多的场景。 PP-ShiTuV2 通用图像识别系统由主体检测、特征提取、向量检索三个模块构成,其中主体检测模型和特征提取模型具有强大的鲁棒性,能够适用于多种场景任务,并且在改变任务类别时无需重新训练。

模型 主体检测模型 mAP(%) Aliproduct数据集recall@1(%) Aliproduct数据集mAP(%) SOP数据集recall@1(%) SOP数据集mAP(%) GPU 推理耗时(ms) CPU推理耗时(ms) 启动训练
PP-ShiTuV2 41.5 84.2 83.3 77.6 55.3 10.48 154.60 主体检测/ 特征提取

注:上述主体检测模型mAP指标测量自Objects365COCO2017的组合数据集。GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为8,精度类型为 FP32。

PDF转Word

PDF转Word工具在实现前沿算法的基础上,考虑精度与速度的平衡,进行模型瘦身和深度优化,使其尽可能满足产业落地需求。PDF转Word由PP-OCRv4中英文超轻量文本检测和识别模型、表格识别模型、版面分析模型组成,具体见下表。

算法 模型 精度 GPU推理耗时(ms) CPU推理耗时(ms) 模型存储大小(M) 启动训练
版面分析 picodet_layout_1x 86.80 2.75 55.07 9.7 版面分析
文本检测 ch_PP-OCRv4_det 77.79/82.69 1.95/19.44 66.16/2529.59 4.7/111 mobile/server
文本识别 ch_PP-OCRv4_rec 78.20/79.20 0.76/2.75 12.94/132.56 11/89 mobile/server
表格识别 SLANet 76.31 791.73 379.87 9.3 SLANet

注:版面分析评估集为CDLA中文文档版面分析数据集;文本检测和文本识别评估集是PaddleOCR自建的中文数据集,覆盖街景、网图、文档、手写多个场景,其中文本识别包含1.1w张图片,检测包含500张图片;表格识别评估集是PubtabNet英文表格识别数据集。GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为8,精度类型为 FP32。

上一篇
PaddleX-Windows版安装
下一篇
PaddleX-数据集规范