开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
图像技术
文字识别
人脸与人体识别
视频技术
AR与VR
自然语言处理
知识图谱
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
智能农业
信息服务
智能园区
智能硬件
EasyDL零门槛AI开发平台

    数据去重策略

    重复样本的定义

    一个样本包括文本内容和标签。重复样本的定义,是指您上传的数据中,存在两个样本的文本内容完全一致。则被判定为两个样本是重复样本。例如:

    文本内容 标签
    今天北京的空气不错 weather
    今天北京的空气不错 weather
    今天北京的空气不错 local

    上表三个样本均为重复样本,后两个样本虽然标签不一,但文本内容一致,也为重复样本。根据文本出现的顺序,最后一次的重复样本将代替之前的重复样本。

    小Tips:“如何利用好重复样本” 如果您的数据存在样本种类不均衡的现象,您可以通过将重复样本数量小的那一类,使其样本数量增加到与数据量大的那一类样本数量相近,以提高模型训练的效果,这种方法也称为“上采样”。

    平台去重策略

    平台提供了可去重的数据集,即对您上传的数据进行重复样本的去重。注意:当您确定了数据集为去重或非去重的属性后,便不可修改。

    当您创建了一个去重的数据集时,在后续上传数据的过程中,平台可通过检验您当前上传的样本与已上传到此数据集下的样本是否相同,如果相同,则会使用新的样本替代旧的样本。此时分为几种情况,如下:

    1. 数据集中有未标注样本,上传重复的已标注样本,此时未标注样本将被覆盖
    2. 数据集中有已标注样本,上传重复的未标注样本,此时已标注样本将被覆盖
    3. 数据集中有已标注样本,上传不同标注的已标注样本,此时已有的标注样本将被覆盖
    上一篇
    文本分类数据集管理API
    下一篇
    创建文本分类模型