资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

创建数据集并导入

创建数据集

在训练模型之前,需要在【数据总览】里面“创建数据集”。需输入数据集名称、选择相应的标注模版、选择数据去重策略,即可创建一个空数据集。

image.png

数据自动去重即平台对您上传的数据进行重复样本的去重。建议创建数据集时选择「数据自动去重」

导入无标注数据

创建数据集后,在「数据总览」页面中,找到该数据集,点击右侧操作列下的「导入」,即可进入导入数据页面。

image.png

您可以使用3种方案上传数据,分别为:

  • 本地导入
  • BOS目录导入
  • 分享链接导入

本地导入

您可以通过以下三种方式进行本地数据的导入:

image.png

  • 以压缩包的方式上传
  • 以TXT文本文件方式上传
  • 以Excel文件的方式上传

通过压缩包上传时,需注意:

  • 压缩包内每一个txt文件为一个样本,文本文件编码须为UTF-8,每个样本字符数不得超过512个字符(包括汉字、数字、符号等),超出将被截断
  • 压缩包的格式为zip;压缩包最大不超过5G;详见数据样例

通过TXT文本上传时,需注意:

  • 文本实体关系抽取数据txt文件中,每一行为一个样本,文本文件的编码格式须为UTF-8,每个样本字符数不得超过512个字符(包括汉字、数字、符号等),超出将被截断,详见数据样例
  • 文件格式支持txt格式,单次可上传100个文件,最多可上传100万个文件。

通过Excel文件上传时,需注意:

  • 如果您上传的文本实体关系抽取数据未Excel文件,那么要求您的Excel文件每行为一个样本,每个样本字符数不得超过512个字符(包括汉字、数字、符号等),超出将被截断。注意,表头作为首行将被系统忽略。
  • 文件格式支持xlsx格式,单次可上传100个文件,详见数据样例

BOS目录导入

需选择Bucket地址与对应的文件夹地址。

请确保将全部文本已通过txt文件保存至同一层文件目录,该层目录下子文件目录及非相关内容(包括压缩包格式等)不导入。

分享链接导入

需输入链接地址。分享链接导入的要求如下:

仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接 导入有标注数据 创建数据集后,在「数据总览」页面中,找到该数据集,点击右侧操作列下的「导入」,即可进入导入数据页面。

已标注数据上传方式:

针对已标注的文本实体关系抽取数据集上传目前本平台仅支持Excel文件格式上传。

以Excel文件导入

  • 要求上传的Excel文件,首行为表头,表头表示每一列代表的数据类型,依次为“文本内容、实体关系1、实体关系2、..”。其中实体关系内格式为:{实体1位置,实体1类别},{实体2位置,实体2类别},实体关系。每个标注内均以英文逗号间隔,且内容顺序不可变。详见数据样例
  • 第二行起每行为一个样本,每个样本文本内容字符数不得超过512个字符(包括汉字、符号、数字等),超出将报错;
  • 目前Excel文件格式支持xlsx格式,单次可上传100个文件;文本样例如下。
文本内容 实体关系1
今年年初,党中央、国务院根据国内外经济形势的变化,及时作出扩大内需、保持经济持续快速增长的重大决策。 {[5,7],ORG},{[9,11],ORG},lead

准备数据集的技巧

在每个数据集项目中可以包含多个实体及其关系的文本数据,每个文本数据的实体数量以及关系数据可以不同。以下是文本实体关系抽取任务的小tips,请您查收:

  • 思考实体类型:根据您所需要的具体场景,来考虑您的文本数据中包含的实体类型数量
  • 思考实体关系类型:根据您已有的实体,考虑各实体之间的关系

可能的疑问

  • 什么是实体关系抽取?

答:实体关系抽取是指从文本中抽取出预定义的实体类型及实体间的关系类型,得到包含语义信息的实体关系三元组,每个实体关系三元组由两个实体及其关系构成,如<实体1,实体2,实体关系>

  • 如果训练文本数据无法全部覆盖实际场景要识别的文本,怎么办?

答:训练的模型算法会有一定的泛化能力,尽可能覆盖即可

上一篇
整体介绍
下一篇
在线标注