开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
图像技术
文字识别
人脸与人体识别
视频技术
AR与VR
自然语言处理
知识图谱
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
智能农业
信息服务
智能园区
智能硬件
EasyDL零门槛AI开发平台

    数据上传

    您可以使用3种方案来上传文本分类(多标签)的数据,三种方式为:

    1. 以压缩包的方式上传
    2. 以TXT文本文件方式上传
    3. 以Excel文件的方式上传

    您可以上传带有标注信息的数据或不带标注信息的数据,下面将对以上四种方式分别介绍。

    1、以压缩包方式上传

    • 文本文件的编码方式:UTF-8,每个文本文件最长不能超过4096个汉字(字符)
    • 压缩包仅支持zip格式;大小需要在5GB以内;

    注意,如果您上传的数据是带有标注信息的数据,则需要在压缩包里的创建文件夹,文件夹名即是标签名,只能包含数字/字母/下划线,一个样本有多个标签,则从属于多个文件夹。例如“北京明天气温骤降,请注意保暖”的文本文件同时存在于“北京本地”和“天气”两个文件夹下。

    2、以TXT文本文件上传

    • 每行样本最长不能超过4096个汉字(字符),文件编码方式:UTF-8
    • txt文件内的标注数据格式要求为"文本内容\t标注标签\t...标注标签\t\n"(\t代表tab制表符,\n代表回车换行),如果是无标注信息的数据,则每行只有文本内容即可

    3、以Excel文件上传

    • Excel文件内数据格式要求为:使用第一列作为待标注文本,第二列作为标注信息列(此列仅支持数字或字母),每行是一组样本,每组数据文本内容的字符数建议不超过4096,超出将被截断。
    • 文件类型支持xlsx格式,单次上传限制100个文件
    上一篇
    创建数据集
    下一篇
    数据去重策略