开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
图像技术
文字识别
人脸与人体识别
视频技术
AR与VR
自然语言处理
知识图谱
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
智能农业
信息服务
智能园区
智能硬件
EasyDL零门槛AI开发平台

    文本分类数据集上传

    在【数据总览】页面,可以看到自己创建的空数据集项目,点击对应项目中上传操作。您可以在文本分类单标签的数据集中,上传带有标注信息的数据,和无标注信息的数据。 image.png

    在数据导入方式选择本地数据集,根据您已有的数据存储格式,选择上传方式,目前平台提供上传方式有:

    • 上传Excel文件
    • 上传TXT文本
    • 上传压缩包
    • 通过API导入

    下面分别为您介绍几种上传方式

    * 以Excel文件上传

    • Excel文件内数据格式要求为:每行是一个样本详见数据样例,如果您上传的为有标注数据,则每行的样本包含两列,第一列为数据文本内容,第二列为文本对应标签,详见数据样例;如果您上传的为无标注数据,则每行样本仅包含第一列数据文本内容,每个数据样本文本内容的字符数建议不超过4096个,超出将被截断。
    • 文件类型支持xlsx格式,单次上传文件个数上限为100个
    • 请确保您上传的样本在sheet1中,注意,首行作为表头将被系统忽略

    * 以压缩包方式上传

    如果您想上传的数据为压缩包,请根据您的数据是否已标注,按照以下格式要求完成数据上传。

    无标注数据

    • 压缩包内包含上传的所有文本数据,每一个文本文件将作为一个样本上传,详见示例压缩包
    • 压缩包格式为.zip格式,压缩包内文件类型支持txt,文件编码仅支持UTF-8

    有标注数据

    • 压缩包格式为.zip格式,同时压缩包大小在5GB以内,文本编码仅支持UTF-8,每个文本文件最长不能超过4096个字符
    • 标注文件中标签由数字、中英文、中/下划线组成,长度上限256字符。

    有标注数据可以使用以下两种格式组织压缩包的内容:

    (1)以文件夹命名样本的标签:压缩包内按照文本类别数量分为多个文件夹,以文件夹的名称作为文本类别标签,文件夹下的所有txt文件作为样本,详细请见示例压缩包

    (2)用json文件标记分类:压缩包内仅支持单个文本文件(txt)及同名的json格式标注文件的上传,可传多组样本,详细请见示例压缩包

    以TXT文本文件上传

    • 无标注数据文本文件内数据格式要求为"文本内容\n"(即每行一个未标注样本,使用回车换行),详见数据样例。有标注数据中文本文件内数据格式要求为"文本内容\t标签\n"(即每行一个标注样本,使用tab键将文本内容与标签分开,使用回车换行),详见数据样例。每一行表示一组数据,每组数据的字符数建议不超过4096个字符,超出将被截断。
    • 文本文件类型支持txt,编码仅支持UTF-8,单次上传限制100个文本文件

    通过API方式导入

    您可以通过API导入文档,查看上传数据的方式

    上一篇
    文本分类数据集创建
    下一篇
    文本分类数据集管理API