UGC图片质检

更新时间：2025-05-15

一、什么是UGC图片质检

1.1 场景描述

随着AI生图工具普及与用户创作热情高涨，UGC生态迎来爆发式增长，无论是社交平台的创意作品，还是电商场景的商品图，都展现出全民创作的活力。但繁荣之下，质量与安全问题凸显：AI生成图像因模型缺陷出现模糊、失真、比例扭曲及人体结构异常等问题；用户自主上传内容也因拍摄或后期处理不当，存在暗角、畸变等瑕疵，甚至包含违规展示。这些低质与违规图像不仅影响用户体验，还可能引发消费纠纷、触碰内容安全红线。因此，构建完善的UGC图片审核与质检体系，成为保障数字生态健康发展的关键。下面将详细展示如何利用千帆ModelBuilder进行图像理解大模型微调，从数据的构建、Prompt格式、模型的精调以及评估等方面来展示如何调优得到一个“UGC图片质检员”。

1.2 任务挑战

数据层面
- 数据分布：UGC场景下，正常图像数量较多，可能导致模型在训练时过度关注正常样本，对小样本瑕疵类型（如罕见人体结构异常、特殊违规内容）识别能力不足，出现漏检误判。
- 标注标准难统一：瑕疵和违规内容判定存在主观差异，且随着UGC内容形式演变（如二次元风格、创意合成图），传统标注规则难以覆盖新型瑕疵，需持续迭代标注体系。
- 数据隐私与合规：UGC数据可能包含用户隐私信息（如人脸、身份证号），直接用于模型训练存在泄露风险；同时，部分公开采集的数据可能涉及版权争议，增加数据合规处理难度。
模型层面
- 泛化能力不足：AI生图工具迭代迅速，新模型生成的图像风格、瑕疵模式不断变化；UGC用户创作手法多样（如滤镜特效、拼接裁剪），现有图像理解模型难以适应动态变化，在未见过的场景下表现不稳定。
- 复杂场景适应性差：实际UGC场景中，图像背景复杂、目标物体多样、光照条件不一，且瑕疵可能与正常图像特征相似（如艺术化模糊与对焦失误模糊），增加模型精准识别难度。

二、数据集构建与规则判定

2.1 瑕疵类型定义与数据收集策略

本数据集聚焦 UGC（用户生成内容）场景，涵盖 6 种常见瑕疵类型：

图像模糊：包括对焦不准、动态模糊等导致主体细节丢失的图像问题；
颜色失真：因色彩偏差、过曝、偏色等导致视觉效果偏离真实场景的现象；
比例扭曲：图像中主体或构图出现拉伸、压缩等比例异常问题；
边框：非内容主体的多余边框、黑边或装饰性边框干扰视觉效果；
暗角：图像四角出现亮度显著低于中心区域的暗化现象；
残肢缺陷或多肢异常：人物或生物肢体结构缺失、变形或多出异常肢体的缺陷。

数据收集采用公开平台采集与AIGC生成双轨制，并进行人工复核：

公开平台采集：通过图搜工具，以瑕疵类型关键词定向抓取 UGC 公开平台的真实图像数据。
AIGC 图像生成：针对残肢缺陷或多肢异常等难以通过现实采集覆盖的瑕疵，采用 AI 生成技术补充数据。您也可以探索千帆精选大模型，自行使用图像生成模型（文生图模型）进行数据生成。

2.2 数据样例

基于实际需求与数据获取的可行性，数据分布如下。正常图像获取相对容易、在UGC场景中占比较高；“图像模糊”等瑕疵通过数据增强批量生成，该类瑕疵间数量相近；“残肢缺陷或多肢异常”瑕疵，因AIGC生成成本高、审核严格，数量较少，同时保证一定样本量以满足模型对特殊瑕疵的学习需求，确保模型能准确识别各类瑕疵并良好泛化。

类型	正常	图像模糊	颜色失真	比例扭曲	边框	暗角	残肢缺陷或多肢异常	全部
数量	662	120	120	120	120	120	225	1487

部分数据样例如下：采用Prompt+Image+Response的格式，并在提示词中给出审核标准与回答规则。

Prompt	Image	Response
{"role": "user", "content": "\n你是一个专业的UGC图片质检审核员，我会提供一张用户上传的图片、一系列质量问题和对应的质检标准，以及我希望的输出格式要求。请根据提供的图片和质检标准，判断该图片是否符合每个标准，并按照固定 JSON 格式返回结果。\n\n# 可能的质量问题: 图像模糊、颜色失真、比例扭曲、边框、暗角、残肢缺陷或多肢异常;\n\n# 质检标准\n1. 图像模糊: 图片模糊不清，细节不清晰，无法辨认物体或文字;\n2. 颜色失真: 图片颜色失真，色彩不自然或过于鲜艳，或者颜色偏差明显;\n3. 比例扭曲: 图片中出现比例扭曲，如图像拉长、拉宽、变形等;\n4. 边框: 图片四周有明显的边框或边缘处理不当;\n5. 暗角: 图片四个角落的亮度明显暗于图片中央区域;\n6. 残肢缺陷或多肢异常: 重点关注图片中出现的人体存在不合理的地方，例如，奇怪的形体，多余或缺少的四肢，奇怪的手指或脚趾等异常情况，只要存在任何不合理的情况，就存在该质量问题;\n\n# 输出格式:\n一个完整的JSON, 不需要任何其它无关解释\n# 输出格式说明:\n一共返回1行JSON, 包含1个字段:result。result的值是你的判断结果, 如果存在某个质量问题, 则出现该质量问题, 否则不出现。如果存在多个质量问题, 用","分隔。如果一个质量问题都没有, 则返回"正常"。\n\n<输入图片>:<ImageHere>\n<输出>:\n"}		{ "result": "图像模糊" }
{"role": "user", "content": "\n你是一个专业的UGC图片质检审核员，我会提供一张用户上传的图片、一系列质量问题和对应的质检标准，以及我希望的输出格式要求。请根据提供的图片和质检标准，判断该图片是否符合每个标准，并按照固定 JSON 格式返回结果。\n\n# 可能的质量问题: 图像模糊、颜色失真、比例扭曲、边框、暗角、残肢缺陷或多肢异常;\n\n# 质检标准\n1. 图像模糊: 图片模糊不清，细节不清晰，无法辨认物体或文字;\n2. 颜色失真: 图片颜色失真，色彩不自然或过于鲜艳，或者颜色偏差明显;\n3. 比例扭曲: 图片中出现比例扭曲，如图像拉长、拉宽、变形等;\n4. 边框: 图片四周有明显的边框或边缘处理不当;\n5. 暗角: 图片四个角落的亮度明显暗于图片中央区域;\n6. 残肢缺陷或多肢异常: 重点关注图片中出现的人体存在不合理的地方，例如，奇怪的形体，多余或缺少的四肢，奇怪的手指或脚趾等异常情况，只要存在任何不合理的情况，就存在该质量问题;\n\n# 输出格式:\n一个完整的JSON, 不需要任何其它无关解释\n# 输出格式说明:\n一共返回1行JSON, 包含1个字段:result。result的值是你的判断结果, 如果存在某个质量问题, 则出现该质量问题, 否则不出现。如果存在多个质量问题, 用","分隔。如果一个质量问题都没有, 则返回"正常"。\n\n<输入图片>:<ImageHere>\n<输出>:\n"}		{ "result": "残肢缺陷或多肢异常" }

Prompt设计如下：在监督微调（SFT）阶段进行数据准备时，可将以下独立Prompt设计作为参考标准；同时，该设计也适用于模型完成微调并部署后的调用测试环节，用以验证模型对指令的响应准确性与任务执行能力。

PROMPT = """
你是一个专业的UGC图片质检审核员，我会提供一张用户上传的图片、一系列质量问题和对应的质检标准，以及我希望的输出格式要求。请根据提供的图片和质检标准，判断该图片是否符合每个标准，并按照固定 JSON 格式返回结果。

# 可能的质量问题: 图像模糊、颜色失真、比例扭曲、边框、暗角、残肢缺陷或多肢异常;

# 质检标准
1. 图像模糊: 图片模糊不清，细节不清晰，无法辨认物体或文字;
2. 颜色失真: 图片颜色失真，色彩不自然或过于鲜艳，或者颜色偏差明显;
3. 比例扭曲: 图片中出现比例扭曲，如图像拉长、拉宽、变形等;
4. 边框: 图片四周有明显的边框或边缘处理不当;
5. 暗角: 图片四个角落的亮度明显暗于图片中央区域;
6. 残肢缺陷或多肢异常: 重点关注图片中出现的人体存在不合理的地方，例如，奇怪的形体，多余或缺少的四肢，奇怪的手指或脚趾等异常情况，只要存在任何不合理的情况，就存在该质量问题;

# 输出格式:
一个完整的JSON, 不需要任何其它无关解释
# 输出格式说明:
一共返回1行JSON, 包含1个字段:result。result的值是你的判断结果, 如果存在某个质量问题, 则出现该质量问题, 否则不出现。如果存在多个质量问题, 用","分隔。如果一个质量问题都没有, 则返回"正常"。

<输入图片>:<ImageHere>
<输出>：
"""

三、平台实现步骤

Step1: 创建SFT图像理解任务

在千帆ModelBuilder上，选择「模型精调」→「SFT」，作业类型选择「图像理解」，并选择base模型Qwen2.5-VL-7B-Instruct，此模型在视觉理解、文档解析、视频理解等方面表现出色，具备强大的多模态能力。
选择「LoRA」训练方法，仅更新少量参数，能大幅降低计算量与内存占用，适配有限算力环境；同时，不修改预训练模型原始权重，可避免灾难性遗忘，在增强图像理解能力时保留模型多模态任务的原有性能，实现高效灵活的优化。

参数配置如下，基于前期重复实验数据，对关键参数进行了针对性优化调整（下文中做出解释），以提升模型在复杂图像场景下的整体表现。

超参数配置	解释
迭代轮次（Epoch）= 10	不同于文本生成模型，图像具有高维度和复杂的空间结构，模型需要多次迭代来学习其中丰富的视觉特征。10 次迭代通常能让模型充分学习图像数据的各种特征表示，对于小数据集需要适当增大 Epoch 以促进模型收敛。在图像理解模型训练过程中，可以设置相对较大的 Epoch 值，并持续观察 Loss 曲线变化趋势，以便及时调整训练策略，平衡模型的拟合效果与泛化能力。
批处理大小 = 1	图像数据占用内存较大，批处理大小设为 1 可以有效避免内存溢出问题，虽然会降低训练速度，但能在资源有限的情况下保证训练的顺利进行，提高训练效率。
Checkpoint 按 Epoch 保存，保存个数设为 10	按 Epoch 保存 Checkpoint 能够在每个完整的数据集遍历后保存模型状态，方便在不同训练阶段评估和选择模型。保存 10 个 Checkpoint，一方面可以在系统故障时从最近的 Checkpoint 恢复训练，减少训练中断带来的损失；另一方面，通过对比不同阶段的模型，能够分析模型的训练过程，了解模型是如何随着训练逐渐收敛或出现过拟合等情况的，从而为改进模型提供依据。

Step2: 数据配置

本平台提供预置数据集，涵盖UGC场景中常见的多种瑕疵类型，同时包含不同拍摄条件、艺术风格及应用场景下的样本数据。这些数据集经过严格的数据清洗、标注和质量校验，可直接用于模型训练，能够有效满足大部分UGC图片检测场景的需求，帮助用户快速搭建高精度的图像审核模型。

这是新的.png

Step3: 发布模型与开始训练

训练结束后发布为新模型，也可以在训练后的评估报告中选择合适的 checkpoint 进行模型发布。

在此说明checkpoint 保存的目的：

模型恢复：在训练过程中，可能会因为各种原因导致训练中断。保存 checkpoint 可以让训练从上次保存的状态继续，而不必从头开始，节省大量的时间和计算资源。
模型评估与选择：通过保存不同训练阶段的 checkpoint，可以在验证集上评估模型在各个阶段的性能。这样有助于确定模型是否出现过拟合，以及选择在验证集上表现最佳的模型作为最终模型。例如，如果在某个 checkpoint 之后，模型在验证集上的准确率开始下降，而训练集上的准确率仍在上升，就可能出现了过拟合现象，此时可以选择之前表现较好的 checkpoint 对应的模型。
模型对比与分析：保存多个 checkpoint 可以方便对比不同训练阶段模型的参数变化，分析模型的训练过程，了解模型是如何随着训练逐渐收敛或出现过拟合等情况的，从而为改进模型提供依据。

本实验将迭代轮次（Epoch）设定为10，采用按Epoch保存Checkpoint的策略，经多轮验证与性能评估，最终选定第五次迭代生成的模型（Step380时）用于发布。各Checkpoint对应的训练Step信息，可在评估报告"已保存的CheckPoint"中详细查阅。

Step4: 结果查看与分析

您可以通过查看“评估报告”以及在训练过程中或结束后的“训练过程可视化”来监测实验进度和训练情况。平台提供多种指标以评估训练效果，主要关注指标Loss（训练集、验证集每个Step的损失）和Validation Token Accuracy（验证集每个Step中token正确预测的比例）以确认模型效果。观察结果，Training Loss和Validation Loss曲线趋势大致吻合，最后收敛。观察Validation Token Accuracy，预测正确率达到98%以上，满足实际使用场景需要。

这事11.png

这事12.png

这事13.png

Step5: 模型部署与效果快速评估

配置成功后，在平台即可一键开启模型训练，训练完成后一键部署至千帆ModelBuilder，部署后即可创建在线推理服务。在创建服务中，选择合适的算力单元进行购买，即可在业务上部署属于您自己精调后的大模型。部署完成后，您不仅可以调用API实现业务效果，在调用前也可以在体验中心验证模型效果，进而再进行选择。
对图像理解模型可以进行测试评估，在下文中【4.2 评估结果】展示了我们的评估效果，供您参考。您可以在平台部署模型，参考【2.2 数据样例】中的Prompt对具体case进行调用测试。

四、模型调用与结论

4.1 模型调用效果对比

结论1：SFT在多模态领域效果显著，能强化模型对图像类多模态数据的关联学习与综合处理能力，提升复杂场景下的任务表现。

您可通过平台便捷完成模型部署流程，对检测结果中的不良案例（bad case）进行深度溯源与归因分析，精准定位模型误判、漏检的关键因素。模型调用时，建议采用以下标准化Prompt指令；经实际测试验证，调用前后的检测结果对比如下所示，呈现模型的优化效果与应用表现。

Prompt	基座模型	SFT后模型	检验标准参照
检查这张图片中人体的结构是否合理，如果不合理，请指出具体的问题。	这张图片中的人体结构看起来是合理的。腿的长度和比例与身体其他部分相协调，没有明显的比例失调或姿势问题。整体构图也显得自然，没有明显的不自然的扭曲或变形。	这张图片中人体的结构不合理。具体问题如下：1. 右腿的形状不自然，显得扭曲，尤其是膝盖下方的线条看起来不连贯。2. 右手的手指看起来有些不协调，尤其是小指和无名指似乎有缺失或不完整的迹象。3. 左手的手指也有类似的不协调现象，特别是小指和无名指看起来不完整。这些异常表明这张图片可能是由AI生成的，或者是经过了不自然的编辑处理。	>>> 1.残肢缺陷或多肢异常: 图片中出现的人体结构存在不合理的地方，例如，奇怪的形体，多余或缺少的四肢，奇怪的手指或脚趾等异常情况，只要存在任何不合理的情况，就存在该质量问题;>>> 正常>>> 1.残肢缺陷或多肢异常: 图片中出现的人体结构存在不合理的地方，只要存在任何不合理的情况，就存在该质量问题;>>> 残肢缺陷或多肢异常

针对人体结构畸变（残肢/多肢异常）场景分析
基座模型	SFT后模型
在未进行SFT前，基础模型因缺乏AIGC肢体异常检测场景的针对性训练，无法有效识别该场景下的图像瑕疵，在实际测试中部分类别表现出零判别能力，难以满足UGC图像质检需求。	经SFT训练后，模型具备手指异常检测能力，在更复杂的异常肢体检测任务中也有明显的效果提升。

4.2 评估结果

结论2： 在整体准确率与瑕疵召回率指标上，SFT模型实现了突破性提升，针对比例扭曲、边框异常、暗角缺陷及人体结构畸变（残肢/多肢异常）等高复杂度瑕疵类型，检测精度提升尤为显著，有效验证了SFT策略在强化UGC图像质检能力方面的有效性与优越性。

在评估集上，对比<基模型>和<SFT模型>的效果，指标结果见下文。选择准确率和召回率评估，准确率能直观体现模型整体预测的正确性，避免误判；召回率则专注衡量模型对正例样本的捕捉能力，防止漏检，二者从不同关键维度全面反映模型性能。实验结果表明，经SFT训练后的模型在检测性能上显著优于基础模型，整体模型准确率上升30%，不同类型下，召回率平均上升49%。

准确率

	基模型	SFT模型
准确率	57.73% (127 / 220)	87.73% (193 / 220)

召回率

4.3 总结

千帆ModelBuilder所提供的多模态训练方式在图像理解SFT任务中展现出优异性能，不仅适用于当前UGC内容审核、商品图质检等场景，还可拓展至医疗影像分析、智能安防监控等跨领域应用，有效解决多模态数据融合与复杂场景识别难题。同时，平台集成丰富的基础模型资源，并构建了覆盖数据准备、专业标注、高效训练及便捷部署的全链路流程，通过标准化与自动化的工具链，大幅降低多模态大模型微调的技术门槛与成本，为企业及开发者提供从技术研发到业务落地的一站式解决方案，加速多模态AI技术的创新与产业化进程。

模型精调使用技巧

RFT-逻辑推理任务—“谁是好人”