创建数据集并导入

更新时间：2025-01-10

1. 创建数据集

您可以在左侧导航栏中中，选择“数据总览”并点击主内容区域的按钮「创建数据集」，默认数据类型为“文本”，标注类型为“文本创作”。

进入到新创建的文本创作数据集中。您可以在文本创作任务的数据集中，上传带有标注信息的数据，和无标注信息的数据。

在数据导入方式选择本地数据集，根据您已有的数据存储格式，选择上传格式。目前对未标注数据和已标注数据都仅提供了Excel文件上传方式。

第一列作为原始文本，每行是一组样本，首行为表头默认将被忽略，每组数据文本内容的字符数不超过512个字符（包括中英文、数字、符号等），超出的字符可正常保存，但可能无法参与训练。详见平台导入数据处的数据样例。
文件类型支持xlsx格式，单次上传限制100个文件；文件格式示意图如下：

示例：例如在歌词创作场景中，希望用户输入歌名，由模型创作歌词，则上传文本为：“歌名：晴天”。

请注意，“歌名：”作为样本的前缀，需要固定在每一个样本中添加，不固定的前缀，将影响模型效果；

示例样本请详见平台导入数据处的数据样例。

示例：例如在歌词创作场景中，希望用户输入歌名，由模型创作歌词，此场景的标注数据形式可有多种：

数据格式一：

输入文本内容：“歌名：晴天；歌词：”

输出文本内容：“故事的小黄花从出生那年就飘着童年的荡秋千”

在数据格式一中，输入到模型的文本是“歌名：晴天；歌词：”，“歌名：”作为模型输入的前缀，需要固定在每一个样本中添加，不固定的前缀，将影响模型效果；“歌词：”作为模型输出样本的后缀，需要固定在每一个样本中添加，不固定的后缀，将影响模型效果；

您需要在模型预测阶段，确保回传模型输入包含了用户输入的内容，并且拼接了前缀“歌名：”和后缀“歌词：”，在模型服务返回内容时，则直接输出歌词。

数据格式二：

输入文本内容：“歌名：晴天；”

输出文本内容：“歌词：故事的小黄花从出生那年就飘着童年的荡秋千”

在数据格式二中，前缀“歌名：”和后缀“歌词：”分别在模型的输入和输出中。“歌名：”作为输入文本的前缀，需要固定在每一个样本中添加，不固定的前缀，将影响模型效果；“歌词：”作为输出样本的前缀，需要固定在每一个样本中添加，不固定的后缀，将影响模型效果；

您需要确保预测推理阶段，模型输入包含了用户输入的内容，并且拼接了前缀“歌名：”

数据格式三：

输入文本内容：“晴天”

输出文本内容：“故事的小黄花从出生那年就飘着童年的荡秋千”

在数据格式三中，前缀“歌名：”和后缀“歌词：”都不存在模型的训练数据，则所有样本都不要添加前缀和后缀。则您需要确保在预测推理阶段，模型输入仅有歌名内容。

详见平台导入数据处的数据样例。