资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

数据去重

重复样本的定义

一个样本包括文本内容和实体关系类型。重复样本的定义,是指您上传的数据中,存在两个样本的文本内容完全一致。则被判定为两个样本是重复样本。例如:

文本内容 实体关系1
今年年初,党中央、国务院根据国内外经济形势的变化,及时作出扩大内需、保持经济持续快速增长的重大决策。 {[5,7],ORG},{[9,11],ORG},lead
今年年初,党中央、国务院根据国内外经济形势的变化,及时作出扩大内需、保持经济持续快速增长的重大决策。 {[5,7],ORG},{[9,11],ORG},friends
今年年初,党中央、国务院根据国内外经济形势的变化,及时作出扩大内需、保持经济持续快速增长的重大决策。 {[5,7],ORG},{[9,11],ORG},friends

上表三个样本均为重复样本,前两个样本虽然实体关系不同,但文本内容一致,为重复样本,后两个样本的文本内容与实体关系都一致,则也为重复样本。根据文本出现的顺序,最后一次的重复样本将代替之前的重复样本。

小Tips:“如何利用好重复样本” 如果您的数据存在样本种类不均衡的现象,您可以通过将重复样本数量小的那一类,使其样本数量增加到与数据量大的那一类样本数量相近,以提高模型训练的效果,这种方法也称为“上采样”。

平台去重策略

平台提供了可去重的数据集,即对您上传的数据进行重复样本的去重。注意:当您确定了数据集为去重或非去重的属性后,便不可修改。

当您创建了一个去重的数据集时,在后续上传数据的过程中,平台可通过检验您当前上传的样本与已上传到此数据集下的样本是否相同,如果相同,则会使用新的样本替代旧的样本。此时分为几种情况,如下:

  • 数据集中有未标注样本,上传重复的已标注样本,此时未标注样本将被覆盖
  • 数据集中有已标注样本,上传重复的未标注样本,此时已标注样本将被覆盖
  • 数据集中有已标注样本,上传不同标注的已标注样本,此时已有的标注样本将被覆盖
上一篇
在线标注
下一篇
模型训练