资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

创建数据集并导入

1. 创建数据集

您可以在左侧导航栏中中,选择“数据总览”并点击主内容区域的按钮「创建数据集」,默认数据类型为“文本”,标注类型为“文本创作”。

image.png

2.导入文本数据

进入到新创建的文本创作数据集中。您可以在文本创作任务的数据集中,上传带有标注信息的数据,和无标注信息的数据。

image.png

在数据导入方式选择本地数据集,根据您已有的数据存储格式,选择上传格式。目前对未标注数据和已标注数据都仅提供了Excel文件上传方式。

2.1未标注数据上传方式:

以Excel文件上传

  1. 第一列作为原始文本,每行是一组样本,首行为表头默认将被忽略,每组数据文本内容的字符数不超过512个字符(包括中英文、数字、符号等),超出的字符可正常保存,但可能无法参与训练。详见平台导入数据处的数据样例。
  2. 文件类型支持xlsx格式,单次上传限制100个文件;文件格式示意图如下:

image.png

示例:例如在歌词创作场景中,希望用户输入歌名,由模型创作歌词,则上传文本为:“歌名:晴天”。

请注意,“歌名:”作为样本的前缀,需要固定在每一个样本中添加,不固定的前缀,将影响模型效果;

示例样本请详见平台导入数据处的数据样例。

2.2已标注数据上传方式:

以Excel文件导入

  1. Excel文件内数据格式要求为:首行为表头,将不录入数据集中,第一列和第二列分别作为模型输入文本和模型输出文本
  2. 每行是一组样本,输入文本不超过512个字符,输出文本不超过128个字符,超出的字符可正常保存,但可能无法参与训练。(字符包括中英文、数字、符号等)
  3. 文件类型支持xlsx格式,单次上传限制100个文本文件;文件格式示意图如下:

image.png

示例:例如在歌词创作场景中,希望用户输入歌名,由模型创作歌词,此场景的标注数据形式可有多种:

数据格式一:

  • 输入文本内容:“歌名:晴天;歌词:”
  • 输出文本内容:“故事的小黄花 从出生那年就飘着 童年的荡秋千”

在数据格式一中,输入到模型的文本是“歌名:晴天;歌词:”,“歌名:”作为模型输入的前缀,需要固定在每一个样本中添加,不固定的前缀,将影响模型效果;“歌词:”作为模型输出样本的后缀,需要固定在每一个样本中添加,不固定的后缀,将影响模型效果;

您需要在模型预测阶段,确保回传模型输入包含了用户输入的内容,并且拼接了前缀“歌名:”和后缀“歌词:”,在模型服务返回内容时,则直接输出歌词。

数据格式二:

  • 输入文本内容:“歌名:晴天;”
  • 输出文本内容:“歌词:故事的小黄花 从出生那年就飘着 童年的荡秋千”

在数据格式二中,前缀“歌名:”和后缀“歌词:”分别在模型的输入和输出中。“歌名:”作为输入文本的前缀,需要固定在每一个样本中添加,不固定的前缀,将影响模型效果;“歌词:”作为输出样本的前缀,需要固定在每一个样本中添加,不固定的后缀,将影响模型效果;

您需要确保预测推理阶段,模型输入包含了用户输入的内容,并且拼接了前缀“歌名:”

数据格式三:

  • 输入文本内容:“晴天”
  • 输出文本内容:“故事的小黄花 从出生那年就飘着 童年的荡秋千”

在数据格式三中,前缀“歌名:”和后缀“歌词:”都不存在模型的训练数据,则所有样本都不要添加前缀和后缀。则您需要确保在预测推理阶段,模型输入仅有歌名内容。

详见平台导入数据处的数据样例。

  1. 上传时,单个数据集总量仅支持上传10000条样本(包括标注数据和未标注数据)。
上一篇
文本创作介绍
下一篇
文本创作数据标注