资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

表格数据导入

表格数据介绍

训练数据的质量决定了训练所得模型效果可达到的上限。数据上传后无法修改其内容。如果在导入训练数据后需要对其进行更改,必须重新导入。

数据要求 数据文件格式要求:

目前仅支持CSV格式的数据文件 一次仅能上传一个文件,可以是一个CSV文件或由多个CSV文件压缩成的zip包 单个上传文件大小不能超过5GB 一个数据集包含的总文件大小不能超过20GB 数据文件内容要求:

当数据文件包含列名时,列名称可以包含字母、数字和下划线(_),但不能以下划线开头。 文件内容以换行符(即字符“\n”,或称为LF)分隔各行,行内容以英文逗号(即字符“,”)分隔各列 必须包含要预测的值即目标列,且目标列的数据类型会决定模型的类型。 文件中文本列取值长度不能超过4096个字符。 必须至少包含两列,且不得超过1000列。 数据集的总行数不能超过1000万行。 zip包中的多个CSV文件必须使用相同的编码格式,都包含列名或都不包含列名;且列的顺序必须保持一致 在扩充数据集时,新导入数据文件的首行与数据集的列名相同时,将被视为列名,否则将被视作数据

创建数据集

数据集需要先定义,然后再导入数据。

单击“数据总览”,进入数据集列表页面。 单击“创建数据集”,进入数据集创建页面。 输入数据集名称,单击“完成”结束创建。 完成创建后,可以在数据集列表中查看新建的数据集。系统默认生成V1版本,当前数据内容为空,可以通过导入的方式向其中添加数据。 导入数据 通过导入的方式可以向数据集中添加或追加数据。

单击“数据总览”,进入数据集列表页面。 单击待导入数据集所在行的“导入”按钮,进入数据集导入页面。 导入数据文件。 导入的数据文件可以是CSV文件或由CSV文件组成的压缩包文件。 如果导入的是CSV文件,支持数据预览,如果是压缩包格式,则不支持预览。 根据数据文件的实际情况进行列名设置。 设置首行为列名:将导入的数据文件中的首行作为列名。 设置首行非列名:此时系统会自动生成列名,而将首行作为数据。 单击“确认并返回”完成导入操作。

上一篇
数据导出
下一篇
数据质检