脚本任务
目录
- 脚本任务项目说明
- 脚本任务创建流程
- 创建脚本任务项目
- 页面概览
- 预置算法部署后调用参数样例
5.1 左侧文件管理和数据集
5.2 右侧文件预览编辑和提交任务
5.3 底部启动命令、提交任务 - PaddlePaddle脚本任务训练说明
- 数据集与输出文件路径说明
- 提交任务
- 历史任务
- 空间说明
10.1 python3.7.0 - 脚本任务单机多卡示例教程
11.1 单机四卡示例教程
11.2 分布式训练(双机四卡)示例教程 - 问题反馈
脚本任务项目说明
脚本任务项目的任务执行由GPU集群作为支撑, 具有实时高速的并行计算和浮点计算能力, 有效解放深度学习训练中的计算压力, 提高处理效率.
用户可以先在Notebook项目中, 利用在线的Notebook功能, 完成代码的编写与调试, 之后在脚本任务项目中运行, 从而提高模型训练速度.
脚本任务提供三种运行环境:P40一卡(0.5算力/小时)、V100四卡(4算力/小时)、V100双机四卡(4算力/小时).
脚本任务创建流程
创建脚本任务并使其顺利执行需要完成以下几个步骤:
创建脚本任务项目
页面概览
在脚本任务项目详情页中, 用户可以浏览自己创建的项目内容, 编辑项目名称及数据集等信息, 查看集群历史任务信息等.
- 版本内容: 默认展示当前Notebook最新内容. 初始化状态为脚本任务项目示例代码. 用户可以手动选择提交任务时对应的历史版本.
- 数据集: 项目所引用的数据集信息.
- 历史任务: 每一次执行任务的记录.
代码编辑
代码编辑界面主要分为左侧: 文件管理和数据集;右侧: 代码编辑区;底部:启动命令、提交任务.
左侧文件管理和数据集
文件管理
- 用户可以手动创建文件/文件夹, 对文件/文件夹进行重命名或删除.
- 其中用户可以选择指定文件, 并设置为主文件(标识为Main). 用作整个项目运行的入口.
- 用户也可以手动上传文件(单个文件体积上限为1GB,每次最多上传10个文件,环境内文件总体积上限为2GB).
- 用户可以双击文件, 在右侧将新建一个tab,用户可以进一步查看或编辑该文件的内容. (目前仅支持部分文件预览; 同时预览文件的体积上限为1MB)
数据集管理
- 用户可以查看数据集文件, 并复制该文件的相对路径. 最后拼合模板内置绝对路径, 即可使用. 下方有详细介绍.
右侧文件预览编辑
- 当多个文件被打开时, 用户可以将它们逐一关闭, 当至最后一个文件时即不可关闭
- 选中文件对应的tab即可对文件内容进行预览和编辑, 但当前仅支持部分格式的文件
底部启动命令、提交任务
- 用户可以在启动命令中填写待执行命令如python train.py/bash run.sh,当启动命令较长时会收起部分内容,鼠标放置在填写框会显示指令全部信息。
- 点击保存按钮, 会将所有文件的改动信息全部保存, 如用户不提交任务, 直接退出, 则自动保存为一个"未提交"版本
- 提交任务前, 建议写一个备注名称, 方便未来进行不同版本代码/参数的效果比较
数据集与输出文件路径说明
- 脚本任务项目中添加的数据集统一放到绝对路径
./datasets
# 数据集文件会被自动拷贝到./datasets目录下
CLUSTER_DATASET_DIR = '/root/paddlejob/workspace/train_data/datasets/'
- 脚本任务项目数据集文件路径的获取
在页面左侧数据集中点击复制数据集文件路径, 得到文件的相对路径, 例如点击后复制到剪切板的路径为data7688/t10k-images-idx3-ubyte.gz
.
# 数据集文件相对路径
file_path = 'data65/train-labels-idx1-ubyte.gz'
真正使用的时候需要将两者拼合 train_datasets = datasets_prefix + file_path
- 脚本任务项目输出文件路径为
./output
# 需要下载的文件可以输出到'/root/paddlejob/workspace/output/'
目录 CLUSTER_OUTPUT_DIR = '/root/paddlejob/workspace/output'
注:脚本任务输出结果的体积大小限制是20GB,文件数量限制是10000,超过限制任务会立即失败,建议用户在训练时保存必要文件,阶段性删除非必要文件.
提交任务
点击提交任务会出现运行环境选择弹窗,用户可以根据自己的场景选择运行环境。需要注意的是脚本任务单次最大运行时间为72小时同时需要确保算力充足,否则会导致任务失败。
历史任务
历史任务页面如下所示.
任务操作:
- 下载输出: 下载任务输出文件, 文件格式
xxx(任务编号)_output.tar.gz
. - 查看/下载日志: 在任务运行过程中, 点击"查看日志", 可以查看实时日志, 掌握运行进度. 运行结束后, 按钮转为"下载日志". 下载任务执行日志, 日志格式
xxx(任务编号)_log.tar.gz
. - 终止任务: 在任务执行过程中, 可以点击终止任务.
- 编辑: 编辑任务对应的代码版本内容.
空间说明
- 脚本任务项目空间安装包列表
python3.7.0
以python3.7 PaddlePaddle2.1.2环境为例,用户可通过指令pip list自行查看环境信息。
脚本任务多卡示例教程
单机四卡示例教程
- 以下提供脚本任务单机四卡示例教程,用户可在run.py文件底部看到不同运行环境对应的启动命令,按照自己的需求修改代码,填写启动命令即可。
- 在使用单机四卡时可不配置GPU编号,默认启动所有可见卡;如需配置GPU编号,单机四卡的GPU编号为0,1,2,3.
https://aistudio.baidu.com/aistudio/clusterprojectdetail/2326380/trainTask
分布式训练(双机四卡)示例教程
- 以下提供脚本任务分布式训练(双机四卡)示例教程,用户可在run.py文件底部看到不同运行环境对应的启动命令,按照自己的需求修改代码,填写启动命令即可。
- 在使用单双击四卡时可不配置GPU编号,默认启动所有可见卡;如需配置GPU编号,双机四卡的GPU编号为0,1.
https://aistudio.baidu.com/aistudio/clusterprojectdetail/2326380/trainTask
问题反馈
如在使用中遇到问题, 可以邮件至 aistudio@baidu.com