开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术
AR与VR
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
信息服务
智能园区

创建数据集并导入

1. 创建数据集

您可以在左侧导航栏中中,选择“数据总览”并点击主内容区域的按钮「创建数据集」,默认数据类型为“文本”,标注类型为“文本创作”。

image.png

2.导入文本数据

进入到新创建的文本创作数据集中。您可以在文本创作任务的数据集中,上传带有标注信息的数据,和无标注信息的数据。

image.png

在数据导入方式选择本地数据集,根据您已有的数据存储格式,选择上传格式。目前对未标注数据和已标注数据都仅提供了Excel文件上传方式。

2.1未标注数据上传方式:

以Excel文件上传

  1. 第一列作为原始文本,每行是一组样本,首行为表头默认将被忽略,每组数据文本内容的字符数不超过512个字符(包括中英文、数字、符号等),超出的字符可正常保存,但可能无法参与训练。详见平台导入数据处的数据样例。
  2. 文件类型支持xlsx格式,单次上传限制100个文件;文件格式示意图如下:

image.png

示例:例如在歌词创作场景中,希望用户输入歌名,由模型创作歌词,则上传文本为:“歌名:晴天”。

请注意,“歌名:”作为样本的前缀,需要固定在每一个样本中添加,不固定的前缀,将影响模型效果;

示例样本请详见平台导入数据处的数据样例。

2.2已标注数据上传方式:

以Excel文件导入

  1. Excel文件内数据格式要求为:首行为表头,将不录入数据集中,第一列和第二列分别作为模型输入文本和模型输出文本
  2. 每行是一组样本,输入文本不超过512个字符,输出文本不超过128个字符,超出的字符可正常保存,但可能无法参与训练。(字符包括中英文、数字、符号等)
  3. 文件类型支持xlsx格式,单次上传限制100个文本文件;文件格式示意图如下:

image.png

示例:例如在歌词创作场景中,希望用户输入歌名,由模型创作歌词,此场景的标注数据形式可有多种:

数据格式一:

  • 输入文本内容:“歌名:晴天;歌词:”
  • 输出文本内容:“故事的小黄花 从出生那年就飘着 童年的荡秋千”

在数据格式一中,输入到模型的文本是“歌名:晴天;歌词:”,“歌名:”作为模型输入的前缀,需要固定在每一个样本中添加,不固定的前缀,将影响模型效果;“歌词:”作为模型输出样本的后缀,需要固定在每一个样本中添加,不固定的后缀,将影响模型效果;

您需要在模型预测阶段,确保回传模型输入包含了用户输入的内容,并且拼接了前缀“歌名:”和后缀“歌词:”,在模型服务返回内容时,则直接输出歌词。

数据格式二:

  • 输入文本内容:“歌名:晴天;”
  • 输出文本内容:“歌词:故事的小黄花 从出生那年就飘着 童年的荡秋千”

在数据格式二中,前缀“歌名:”和后缀“歌词:”分别在模型的输入和输出中。“歌名:”作为输入文本的前缀,需要固定在每一个样本中添加,不固定的前缀,将影响模型效果;“歌词:”作为输出样本的前缀,需要固定在每一个样本中添加,不固定的后缀,将影响模型效果;

您需要确保预测推理阶段,模型输入包含了用户输入的内容,并且拼接了前缀“歌名:”

数据格式三:

  • 输入文本内容:“晴天”
  • 输出文本内容:“故事的小黄花 从出生那年就飘着 童年的荡秋千”

在数据格式三中,前缀“歌名:”和后缀“歌词:”都不存在模型的训练数据,则所有样本都不要添加前缀和后缀。则您需要确保在预测推理阶段,模型输入仅有歌名内容。

详见平台导入数据处的数据样例。

  1. 上传时,单个数据集总量仅支持上传10000条样本(包括标注数据和未标注数据)。
上一篇
文本创作介绍
下一篇
文本创作数据标注