PaddleX-模型选型
重要通知
在AI Studio平台,
- 模型库中,对于支持PaddleX的模型,原先的 【创建模型产线】入口现已调整为【模型开发-零代码开发】。
- 您也可以选择到项目大厅【创建项目-模板任务】继续PaddleX之旅!
- PaddleX项目管理从【个人中心-我的模型产线】调整至【项目-我的项目-PaddleX],大家已创建的PaddleX模型产线已收录至“我的项目”中。
模型选型
本章节提供模型选型的参考数据表,目前包括通用图像分类、通用图像分割、通用目标检测、通用OCR、通用单目3D目标检测、通用多目3D目标检测、通用点云3D目标检测、通用时序预测、通用时序异常检测、通用时序分类等几大类通用任务场景,以及PP-ShiTuV2通用图像识别系统、PDF转Word等多模型综合应用方案。后续PaddleX将提供覆盖更多任务场景和模型的选型参考,敬请期待!
通用图像分类
图像分类是计算机视觉领域的基础任务,实现对未知类别的图像进行分类。PaddleX目前提供了9个模型,满足对性能和效率的不同需求,具体见下表。
模型 | Top1 Acc(%) | GPU 推理耗时(ms) | CPU 推理耗时(ms) | 模型存储大小(M) | 启动训练 |
---|---|---|---|---|---|
PP-HGNetV2_B6 | 86.30 | 10.46 | 240.18 | 288 | 训练 |
CLIP_vit_base_patch16_224 | 85.39 | 12.03 | 234.85 | 331 | 训练 |
PP-HGNetV2_B4 | 83.57 | 2.45 | 38.10 | 76 | 训练 |
SwinTransformer_base_patch4_window7_224 | 83.37 | 12.35 | - | 342 | 训练 |
PP-HGNet_small | 81.51 | 4.24 | 108.21 | 94 | 训练 |
PP-HGNetV2_B0 | 77.77 | 0.68 | 6.41 | 23 | 训练 |
ResNet50 | 76.50 | 3.12 | 50.90 | 98 | 训练 |
PP-LCNet_x1_0 | 71.32 | 1.01 | 3.39 | 7 | 训练 |
MobileNetV3_small_x1_0 | 68.24 | 1.09 | 3.65 | 12 | 训练 |
注:以上精度指标为 ImageNet1k 验证集 Top1 Acc,GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为8,精度类型为 FP32。
通用图像分割
图像分割任务作为计算机视觉基础任务之一,被广泛用于街景分割、医学图像分割、道路分割等场景。考虑精度和性能的不同需求,PaddleX目前提供了 OCRNet、PP-LiteSeg两种模型,具体见下表。
模型 | mIoU (%) | GPU 推理耗时(ms) | CPU 推理耗时(ms) | 模型存储大小 (M) | 启动训练 |
---|---|---|---|---|---|
OCRNet | 82.15 | 87.97 | 2180.76 | 270 | 训练 |
PP-LiteSeg | 77.04 | 5.98 | 140.02 | 31 | 训练 |
注:以上精度指标测量自Cityscapes数据集,GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为8,精度类型为 FP32。
通用目标检测
目标检测任务是计算机视觉领域的核心问题,用于找出图像中所有感兴趣的目标(物体),并确定它们的类别和位置。PaddleX目前提供了6个模型,满足对性能和效率的不同需求,具体见下表。
模型 | mAP(%) | GPU 推理耗时(ms) | CPU 推理耗时(ms) | 模型存储大小(M) | 启动训练 |
---|---|---|---|---|---|
rt_detr_hgnetv2_h | 56.3 | 100.65 | 8451.92 | 471 | 训练 |
rt_detr_hgnetv2_l | 53.0 | 27.89 | 841.00 | 125 | 训练 |
ppyoloe_plus_s | 43.7 | 8.11 | 137.23 | 31 | 训练 |
ppyoloe_plus_l | 52.9 | 29.67 | 700.97 | 200 | 训练 |
picodet_l_640_lcnet | 42.6 | 10.09 | 129.32 | 23 | 训练 |
picodet_s_320_lcnet | 29.1 | 3.17 | 13.36 | 5 | 训练 |
注:以上精度指标为 COCO2017 验证集 mAP(0.5:0.95),GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为8,精度类型为 FP32。
通用OCR
OCR任务用于解决文字识别任务,提取图片中的文字信息以文本形式输出。考虑精度和性能的不同需求,PaddleX目前提供了针对PP-OCRv4的 server 和 mobile 两种方案,具体见下表。
模型 | 检测 Hmean(%) | 识别 Avg Accuracy(%) | GPU 推理耗时(ms) | CPU 推理耗时(ms) | 模型存储大小(M) | 启动训练 |
---|---|---|---|---|---|---|
PP-OCRv4-server | 82.69 | 79.20 | 22.20346 | 2662.158 | 198 | (文本检测/文本识别) |
PP-OCRv4-mobile | 77.79 | 78.20 | 2.719474 | 79.1097 | 15 | (文本检测/文本识别) |
注:评估集是PaddleOCR自建的中文数据集,覆盖街景、网图、文档、手写多个场景,其中文本识别包含1.1w张图片,检测包含500张图片。GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为8,精度类型为 FP32。
通用单目3D目标检测
单目3D目标检测作为3D目标检测的任务之一,基于单张视觉图像预测目标的3D框,通用单目3D目标检测提供了CaDDN方案,具体见下表。
模型 | 3DmAP Mod (%) | GPU 推理耗时(ms) | CPU 推理耗时(ms) | 模型存储大小 (MB) | 启动训练 |
---|---|---|---|---|---|
CaDDN | 7.86 | 182.4 | - | 121 | 训练 |
注:精度指标测量自KITTI验证集。GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32。由于存在自定义算子,CPU 推理暂不支持。
通用点云3D目标检测
点云3D目标检测作为3D目标检测的任务之一,基于点云数据预测目标的3D框,通用点云3D目标检测提供了CenterPoint方案,具体见下表。
模型 | 3DmAP (%) | NDS (%) | GPU 推理耗时(ms) | CPU 推理耗时(ms) | 模型存储大小 (MB) | 启动训练 |
---|---|---|---|---|---|---|
CenterPoint | 50.79 | 61.30 | 38.96 | - | 24.5 | 训练 |
注:精度指标测量自Nuscenes验证集。GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32。由于存在自定义算子,CPU 推理暂不支持。
通用多目3D目标检测
多目3D目标检测作为3D目标检测的任务之一,基于多张视觉图像预测目标的3D框,PaddleX目前提供了PETRv1和PETRv2方案,需按顺序提供正前方、右前方、左前方、正后方、左后方和右后方的图像,其中PETRv2应同时提供前一时刻的图像序列。具体见下表。
模型 | 3DmAP (%) | NDS | GPU 推理耗时(ms) | CPU 推理耗时(ms) | 模型存储大小 (MB) | 启动训练 |
---|---|---|---|---|---|---|
PETRv1 | 38.35 | 43.52 | 328.52 | 22341.2 | 345 | 训练 |
PETRv2 | 41.05 | 49.86 | 790.78 | 43015.9 | 121 | 训练 |
注:精度指标测量自Nuscenes验证集。GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为8,精度类型为 FP32。
通用时序预测
时序在每日的生活、工作中随处可见,比如CPU负载、上证指数、商场每天的人流量、商品每日的价格等都属于时间序列,总的来说时间序列就是按时间记录的有序数据,而时序预测就是运用历史的数据推测出事物的发展趋势。通用时序预测提供了9种模型供大家选择,具体见下表。其中PP-TS是飞桨团队提出的一种基于启发搜索和集成学习的时序预测模型,达到了比此前的同类型模型更好的性能,推荐大家试用。
模型 | mse | mae | 模型存储大小(M) | 启动训练 |
---|---|---|---|---|
DLinear | 0.386 | 0.445 | 80k | 训练 |
RLinear | 0.408 | 0.456 | 44k | 训练 |
Nlinear | 0.411 | 0.459 | 44k | 训练 |
PatchTST | 0.291 | 0.380 | 2.2M | 训练 |
TimesNet | 0.284 | 0.386 | 5.2M | 训练 |
TiDE | 0.376 | 0.441 | 35M | 训练 |
Nonstationary | 0.385 | 0.463 | 61M | 训练 |
XGBoost | 0.426 | 0.470 | 15M | 训练 |
PP-TS | 0.210 | 0.318 | 63M | 训练 |
注:精度指标测量自ECL数据集,输入输出长度均为96,预测单元目标是MT_320。
通用时序异常检测
时序异常检测是时序分析中的一个重要且常见的任务,通常基于无监督训练,使用深度模型学习重建正常时间序列,与异常序列进行对比,得到异常点。PaddleX目前提供了1种时序异常检测模型,具体见下表。
模型 | precision | recall | f1_score | 模型存储大小(M) | 启动训练 |
---|---|---|---|---|---|
TimesNet_AD | 0.899 | 0.935 | 0.917 | 5.4M | 训练 |
注:精度指标测量自SWAT数据集,重建长度为100。
通用时序分类
时序分类是时序分析中的一个重要且常见的任务,根据对序列的特征分析,得到不同序列的类别。PaddleX目前提供了1种时序分类模型,具体见下表。
模型 | acc(%) | 模型存储大小(M) | 启动训练 |
---|---|---|---|
TimesNet_CLS | 67.9 | 5.3M | 训练 |
注:精度指标测量自UEA/FaceDetection数据集。
PP-ShiTuV2通用图像识别系统
图像识别是计算机视觉领域重要的基础任务,目前主要有目标检测和图像分类技术,然而上述技术无法应对数据类别变动频繁、类别数据多的场景。 PP-ShiTuV2 通用图像识别系统由主体检测、特征提取、向量检索三个模块构成,其中主体检测模型和特征提取模型具有强大的鲁棒性,能够适用于多种场景任务,并且在改变任务类别时无需重新训练。
模型 | 主体检测模型 mAP(%) | Aliproduct数据集recall@1(%) | Aliproduct数据集mAP(%) | SOP数据集recall@1(%) | SOP数据集mAP(%) | GPU 推理耗时(ms) | CPU推理耗时(ms) | 启动训练 |
---|---|---|---|---|---|---|---|---|
PP-ShiTuV2 | 41.5 | 84.2 | 83.3 | 77.6 | 55.3 | 10.48 | 154.60 | 主体检测/ 特征提取 |
注:上述主体检测模型mAP指标测量自Objects365和COCO2017的组合数据集。GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为8,精度类型为 FP32。
PDF转Word
PDF转Word工具在实现前沿算法的基础上,考虑精度与速度的平衡,进行模型瘦身和深度优化,使其尽可能满足产业落地需求。PDF转Word由PP-OCRv4中英文超轻量文本检测和识别模型、表格识别模型、版面分析模型组成,具体见下表。
算法 | 模型 | 精度 | GPU推理耗时(ms) | CPU推理耗时(ms) | 模型存储大小(M) | 启动训练 |
---|---|---|---|---|---|---|
版面分析 | picodet_layout_1x | 86.80 | 2.75 | 55.07 | 9.7 | 版面分析 |
文本检测 | ch_PP-OCRv4_det | 77.79/82.69 | 1.95/19.44 | 66.16/2529.59 | 4.7/111 | mobile/server |
文本识别 | ch_PP-OCRv4_rec | 78.20/79.20 | 0.76/2.75 | 12.94/132.56 | 11/89 | mobile/server |
表格识别 | SLANet | 76.31 | 791.73 | 379.87 | 9.3 | SLANet |
注:版面分析评估集为CDLA中文文档版面分析数据集;文本检测和文本识别评估集是PaddleOCR自建的中文数据集,覆盖街景、网图、文档、手写多个场景,其中文本识别包含1.1w张图片,检测包含500张图片;表格识别评估集是PubtabNet英文表格识别数据集。GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为8,精度类型为 FP32。