开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
图像技术
文字识别
人脸与人体识别
视频技术
AR与VR
自然语言处理
知识图谱
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
智能农业
信息服务
智能园区
智能硬件
BML 全功能AI开发平台

    文本分类数据导入与标注

    1. 创建数据集

    您可以在左侧目录导航栏中选择【数据总览】并点击按钮“创建数据集”,对话框中选择数据类型为“文本”,标注类型选择“文本分类”,当前的文本分类的数据标注模板默认为单文本单标签格式。

    image.png

    2.导入未标注文本数据

    进入到新创建的文本分类数据集中,如果您手中的数据是未标注数据,可以导入“未标注”中。平台提供两种方式导入数据,一种是从本地上传,一种是已有数据集导入

    image.png

    通过已有数据集导入时,平台将为您筛选出类型为文本分类的数据集。

    本地上传,包括三种上传方式,分别为「上传文本」、「上传压缩包」、「API上传」

    通过文本上传时,需注意:

    1. 文本文件内数据格式要求为"文本内容\n"(即每行一个未标注样本,使用回车换行),每一行表示一组数据,每组数据的字符数建议不超过512个,超出将被截断
    2. 文本文件类型支持txt,编码仅支持UTF-8,单次上传限制100个文本文件

    相关的数据样例可在上传窗口内下载数据样例查看

    通过压缩包上传时,需注意:

    1. 压缩包内的一个文本文件将作为一个样本上传
    2. 压缩包格式为.zip格式,压缩包内文件类型支持txt,编码仅支持UTF-8

    相关的数据样例可在上传窗口内下载数据样例查看

    API导入时,可参考文档

    文本标注

    1. 上传未标注文本后,进入到标注页面,您可以逐一查看每一篇未标注的文本,如下图:

    image.png

    1. 设定分类对应的标签

    1. 创建标签后,即可以进行对文本的标注,在文本的上方标签字段处,会显示对应的分类标签,完成标注

    image.png

    3.导入已标注文本数据

    如果您手中的数据为已经标注好的数据,可以导入到“已标注”中。平台提供两种方式导入数据,一种是从本地上传,一种是从线上已有数据集导入。

    通过已有数据集导入时,平台将为您筛选出类型为文本分类的数据集。

    本地上传,包括三种上传方式,分别为「上传文本」、「上传压缩包」、「API上传」

    通过文本上传时,需注意:

    1. 文本分类的标注数据格式要求为"文本内容\t标注标签\n"(即每行一个未标注样本与一个标注标签,中间使用tab键间隔,每组数据使用回车换行),详见数据样例每一行表示一组数据,每组数据字符数不超过512个,超出将被截断
    2. 支持文本文件类型为txt,编码仅支持UTF-8,单次上传限制100个文本文件

    相关的数据样例可在上传窗口内下载数据样例查看

    通过压缩包上传时,需注意:

    1. 上传已标注文件要求格式为zip格式压缩包,同时压缩包大小在5GB以内,文件编码仅支持UTF-8
    2. 压缩包内仅支持单个文本文件(txt)及同名的json格式标注文件的上传,可传多组样本,详细请见示例压缩包

    相关的数据样例可在上传窗口内下载数据样例查看

    image.png

    API导入时,可参考文档进行上传

    上一篇
    管理视觉数据
    下一篇
    数据标注说明