图像分割模型效果评估

更新时间：2022-04-24

可通过模型评估报告或模型校验了解模型效果：

模型评估报告：训练完成后，可以在【我的模型】列表中看到模型效果，以及详细的模型评估报告。
模型在线校验：可以在左侧导航中找到【校验模型】，在线校验模型效果。校验功能示意图：

模型评估报告

整体评估

在这个部分可以看到模型训练整体的情况说明，包括基本结论、mAP、精确率、召回率。这部分模型效果的指标是基于训练数据集，随机抽出部分数据不参与训练，仅参与模型效果评估计算得来。所以当数据量较少时（如图片数量低于100个），参与评估的数据可能不超过30个，这样得出的模型评估报告效果仅供参考，无法完全准确体现模型效果。

注意：若想要更充分了解模型效果情况，建议发布模型为API后，通过调用接口批量测试，获取更准确的模型效果。

实例分割

查看模型评估结果时，需要思考在当前业务场景，更关注精确率与召回率哪个指标。是更希望减少误识别，还是更希望减少漏识别。前者更需要关注精确率的指标，后者更需要关注召回率的指标。同时F1-score可以有效关注精确率和召回率的平衡情况，对于希望准确率与召回率兼具的场景，F1-score越接近1效果越好。评估指标说明如下

F1-score： 对某类别而言为精确率和召回率的调和平均数，评估报告中指各类别F1-score的平均数

mAP： mAP(mean average precision)是物体检测(Object Detection)算法中衡量算法效果的指标。对于物体检测任务，每一类object都可以计算出其精确率(Precision)和召回率(Recall)，在不同阈值下多次计算/试验，每个类都可以得到一条P-R曲线，曲线下的面积就是average

精确率： 正确预测的物体数与预测物体总数之比。评估报告中具体指经比较F1-score最高的阈值下的结果

召回率： 正确预测的物体数与真实物体数之比。评估报告中具体指经比较F1-score最高的阈值下的结果

语义分割

mIoU：mIoU(mean intersection over union) 是语义分割常用评价指标，mean是对于类别的平均，即每个类别IoU的平均值。某个类别的IoU计算方式如下为，（当前类别预测正确像素点个数）/ (当前类别预测正确像素点个数 + 本属于当前类却被预测为其他类像素点个数 + 本属于其他类却被预测为当前类的像素点个数）。由于mIoU是像素级别的交并比评估，数值上会略低于mAP，不会影响实际使用效果。

准确率：指类别预测正确的像素占总像素的比例，准确率越高模型质量越好。

Kappa系数：用于一致性检验的指标，可以用于衡量分类的效果。取值为-1到1之间，通常大于0，Kappa系数越高模型质量越好。

详细评估

在这个部分可以看到不同阈值下的F1-score，以及模型识别错误的图片示例。

识别错误图片示例

通过分标签查看模型识别错误的图片，寻找其中的共性，进而有针对性的扩充训练数据。

如下图所示，可以通过勾选「误识别」、「漏识别」来分别查看两种错误识别的情况：

误识别：红色遮盖内没有目标物体（准备训练数据时没有标注），但模型识别到了目标物体

观察误识别的目标有什么共性：例如，一个检测电动车的模型，把很多自行车误识别成了电动车（因为电动车和自行车外观上比较相似）。这时，就需要在训练集中为自行车特别建立一个标签，并且在所有训练集图片中，将自行车标注出来。

可以把模型想象成一个在认识世界的孩童，当你告诉他电动车和自行车分别是什么样时，他就能认出来；当你没有告诉他的时候，他就有可能把自行车认成电动车。

漏识别：橙色遮盖内应该有目标物体（准备训练数据时标注了），但模型没能识别出目标物体

观察漏识别的目标有什么共性：例如，一个检测会议室参会人数的模型，会漏识别图片中出现的白色人种。这大概率是因为训练集中缺少白色人种的标注数据造成的。因此，需要在训练集中添加包含白色人种的图片，并将白色人种标注出来。

黄色人种和白色人种在外貌的差别上是比较明显的，由于几乎所有的训练数据都标注的是黄色人种，所以模型很可能认不出白色人种。需要增加白色人种的标注数据，让模型学习到黄色人种和白色人种都属于「参会人员」这个标签。

以上例子中，我们找到的是识别错误的图片中，目标特征上的共性。除此之外，还可以观察识别错误的图片在以下维度是否有共性，比如：图片的拍摄设备、拍摄角度，图片的亮度、背景等等。

图像分割训练操作说明

图像分割模型如何提升效果