资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

数据去重策略

重复样本的定义

重复样本的定义,是指您上传的数据中,存在两个样本的文本内容完全一致。则被判定为两个样本是重复样本。例如:

文本内容
理发师的手艺真不错
理发师的手艺真不错

平台去重策略

平台提供了可去重的数据集,即对您上传的数据进行重复样本的去重。注意:当您确定了数据集为去重或非去重的属性后,便不可修改。

当您创建了一个去重的数据集时,在后续上传数据的过程中,平台可通过检验您当前上传的样本与已上传到此数据集下的样本是否相同,如果相同,则会使用新的样本替代旧的样本。

上一篇
创建数据集并导入
下一篇
数据标注