资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

上传数据集

您可以上传带有标注信息的数据,和无标注信息的数据。您可以根据自己的情况,选择上传方式,目前平台提供上传方式有:

  • 上传Excel文件
  • 上传TXT文本
  • 上传压缩包
  • 通过API导入

下面分别为您介绍几种上传方式

以Excel文件上传

  • Excel文件内数据格式要求为:每行是一个样本,使用第一列和第二列分别作为需要计算相似度的两个文本,第三列为相似度标签(如果导入无标注数据,此列无数据)。第一列和第二列的文本内容的字符数建议不超过512个,超出将被截断。
  • 文件类型支持xlsx格式,单次上传限制100个文件
  • 请确保您上传的样本在sheet1中,且数据都在首列。注意,首行作为表头将被系统忽略

以压缩包方式上传

  • 压缩包格式为.zip格式,单个压缩包限制5G以内
  • 压缩包内文本文件类型为txt,每个txt每行数据格式要求为“文本内容1\t文本内容2\t标注结果\n”,标注结果仅用1/0表示,1代表相似,0代表不相似。一行表示一组数据,每个文本可以有多行短文本组数据,每组数据字符数建议不超过1024个字符(约512个汉字)

以TXT文本文件上传

  • 支持文本文件类型为txt,编码仅支持UTF-8,单次上传限制100个文本文件。
  • 短文本相似度的数据格式要求为“文本内容1\t文本内容2\t标注结果\n”,一行表示一组数据,每组数据字符数建议不超过1024个字符(约512个汉字),可上传多个文本文件

通过API方式导入

您可以通过API导入文档,查看上传数据的方式

上一篇
整体介绍
下一篇
API上传