开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
图像技术
文字识别
人脸与人体识别
视频技术
AR与VR
自然语言处理
知识图谱
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
智能农业
信息服务
智能园区
智能硬件
EasyDL零门槛AI开发平台

    上传数据集

    您可以上传带有标注信息的数据,和无标注信息的数据。您可以根据自己的情况,选择上传方式,目前平台提供上传方式有:

    • 上传Excel文件
    • 上传TXT文本
    • 上传压缩包
    • 通过API导入

    下面分别为您介绍几种上传方式

    以Excel文件上传

    • Excel文件内数据格式要求为:每行是一个样本,使用第一列和第二列分别作为需要计算相似度的两个文本,第三列为相似度标签(如果导入无标注数据,此列无数据)。第一列和第二列的文本内容的字符数建议不超过512个,超出将被截断。
    • 文件类型支持xlsx格式,单次上传限制100个文件
    • 请确保您上传的样本在sheet1中,且数据都在首列。注意,首行作为表头将被系统忽略

    以压缩包方式上传

    • 压缩包格式为.zip格式,单个压缩包限制5G以内
    • 压缩包内文本文件类型为txt,每个txt每行数据格式要求为“文本内容1\t文本内容2\t标注结果\n”,标注结果仅用1/0表示,1代表相似,0代表不相似。一行表示一组数据,每个文本可以有多行短文本组数据,每组数据字符数建议不超过1024个字符(约512个汉字)

    以TXT文本文件上传

    • 支持文本文件类型为txt,编码仅支持UTF-8,单次上传限制100个文本文件。
    • 短文本相似度的数据格式要求为“文本内容1\t文本内容2\t标注结果\n”,一行表示一组数据,每组数据字符数建议不超过1024个字符(约512个汉字),可上传多个文本文件

    通过API方式导入

    您可以通过API导入文档,查看上传数据的方式

    上一篇
    短文本相似度简介
    下一篇
    短文本相似度API数据上传