开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
图像技术
文字识别
人脸与人体识别
视频技术
AR与VR
自然语言处理
知识图谱
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
智能农业
信息服务
智能园区
智能硬件
BML 全功能AI开发平台

    数据去重策略

    重复样本的定义

    一个样本包括文本内容和标签。重复样本的定义,是指您上传的数据中,存在两个样本的文本内容完全一致。则被判定为两个样本是重复样本。例如:

    文本内容 标签
    中 韩 对 抗 赛 中 , 于 大 宝 的 进 球 帮 中 国 队 获 胜 CN-B KR-B O O O O O PER-B PER-I PER-I O O O O ORG-B ORG-I ORG-I O O
    中 韩 对 抗 赛 中 , 于 大 宝 的 进 球 帮 中 国 队 获 胜 CN-B KR-B O O O O O PER-B PER-I PER-I O O O O ORG-B ORG-I ORG-I O O
    中 韩 对 抗 赛 中 , 于 大 宝 的 进 球 帮 中 国 队 获 胜 O O O O O O O O O O O O O O O O O O O

    上表三个样本均为重复样本,后两个样本虽然标签不一,但文本内容一致,也为重复样本。

    Tips: “如何利用好重复样本”,如果您在模型训练过程中,需要通过增加某个类别标签的预测权重,可以通过增加此标签的重复样本来达到此目标。

    平台去重策略

    平台提供了可去重的数据集,即对您上传的数据进行重复样本的去重。注意:当您确定了数据集为去重或非去重的属性后,便不可修改。

    当您创建了一个去重的数据集时,在后续上传数据的过程中,平台可通过检验您当前上传的样本与已上传到此数据集下的样本是否相同,如果相同,则会使用新的样本替代旧的样本。此时分为几种情况,如下:

    1. 数据集中有未标注样本,上传重复的已标注样本,此时未标注样本将被覆盖
    2. 数据集中有已标注样本,上传重复的未标注样本,此时已标注样本将被覆盖
    3. 数据集中有已标注样本,上传不同标注的已标注样本,此时已有的标注样本将被覆盖
    上一篇
    标注说明
    下一篇
    文本实体抽取数据