资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

序列标注数据导入

创建数据集

您可以在BML中,选择“数据管理/标注”并点击按钮“创建数据集”,对话框中选择数据类型为“文本”,标注类型选择“序列标注”,同时您需要根据您的标注数据,选择此序列标注数据集的标注体系(详见文档《序列标注标注说明》)。注意:当前序列标注数据集不支持在线标注功能,您在序列标注数据集中仅能上传标注数据。当您为此数据集选择标注体系后,标注体系不可修改,也不能导入其他标注体系的数据。

image.png

导入已标注数据

  1. 通过下图的”导入“进入到新创建的序列标注数据集的导入页面

image.png

  1. 在数据集的导入数据部分,您可以选择导入数据的方式,目前平台支持本地上传数据和在线导入已有数据集

image.png

  1. 本地上传数据,需要以压缩包的形式上传,压缩包内需要包括标注文本文件(utf-8,txt或tsv格式),标注标签的映射文件(utf-8,JSON格式;文件名必须为”label_map.json“),一个压缩包里可以有多个标注文本文件,但都需要对应一个JSON映射文件。如下图示意:

image.png

  1. 对于上传的数据文件的要求,请注意:

    1. 请上传对应标注体系的标注数据,避免数据上传失败
    2. 标注数据格式要求为“文本内容\t标注结果\n”文本内容和标注结果都需要按字切分,每一行表示一组数据,每组数据的字符数建议不超过512个
    3. 标签映射文件名须为”label_map.json“,标签映射文件的格式为:{"key":"value"}
    4. 上传压缩包文件支持zip格式,单个压缩包限制5G以内。压缩包内需包含txt或tsv格式的文本文件和标注为json格式的标签映射文件,编码仅支持UTF-8,单个文件最大可支持40MB。样本数据详见Demo数据
    5. 平台限免阶段每个账户最多支持100万条样本数据,超出后会被平台忽略

二次导入已标注数据

平台支持用户对于已有的数据集,进行二次导入数据。请注意,再次导入的已标注数据,标注标签需要完全一致。注意,二次导入过程不校验json文件。只对标注文本进行校验,与第一次上传的json文件里不一致的标签和标注数据,平台将过滤掉。

上一篇
短文本匹配数据
下一篇
标注说明