脚本任务

更新时间：2024-03-20

脚本任务项目说明

脚本任务项目的任务执行由GPU集群作为支撑, 具有实时高速的并行计算和浮点计算能力, 有效解放深度学习训练中的计算压力, 提高处理效率.

用户可以先在Notebook项目中, 利用在线的Notebook功能, 完成代码的编写与调试, 之后在脚本任务项目中运行, 从而提高模型训练速度.

脚本任务提供三种运行环境：P40一卡（0.5算力/小时）、V100四卡（4算力/小时）、V100双机四卡（4算力/小时）.

创建脚本任务并使其顺利执行需要完成以下几个步骤：

在脚本任务项目详情页中, 用户可以浏览自己创建的项目内容, 编辑项目名称及数据集等信息, 查看集群历史任务信息等.

代码编辑界面主要分为左侧: 文件管理和数据集；右侧: 代码编辑区；底部：启动命令、提交任务.

文件管理

数据集管理

用户可以在启动命令中填写待执行命令如python train.py/bash run.sh，当启动命令较长时会收起部分内容，鼠标放置在填写框会显示指令全部信息。
点击保存按钮, 会将所有文件的改动信息全部保存, 如用户不提交任务, 直接退出, 则自动保存为一个"未提交"版本
提交任务前, 建议写一个备注名称, 方便未来进行不同版本代码/参数的效果比较

# 数据集文件会被自动拷贝到./datasets目录下
CLUSTER_DATASET_DIR = '/root/paddlejob/workspace/train_data/datasets/'

在页面左侧数据集中点击复制数据集文件路径, 得到文件的相对路径, 例如点击后复制到剪切板的路径为data7688/t10k-images-idx3-ubyte.gz.

# 数据集文件相对路径
file_path = 'data65/train-labels-idx1-ubyte.gz'

真正使用的时候需要将两者拼合 train_datasets = datasets_prefix + file_path

# 需要下载的文件可以输出到'/root/paddlejob/workspace/output/'
目录 CLUSTER_OUTPUT_DIR = '/root/paddlejob/workspace/output'

注：脚本任务输出结果的体积大小限制是20GB，文件数量限制是10000，超过限制任务会立即失败，建议用户在训练时保存必要文件，阶段性删除非必要文件.

点击提交任务会出现运行环境选择弹窗，用户可以根据自己的场景选择运行环境。需要注意的是脚本任务单次最大运行时间为72小时同时需要确保算力充足，否则会导致任务失败。

历史任务页面如下所示.

任务操作:

下载输出: 下载任务输出文件, 文件格式xxx(任务编号)_output.tar.gz .
查看/下载日志: 在任务运行过程中, 点击"查看日志", 可以查看实时日志, 掌握运行进度. 运行结束后, 按钮转为"下载日志". 下载任务执行日志, 日志格式xxx(任务编号)_log.tar.gz .
终止任务: 在任务执行过程中, 可以点击终止任务.
编辑: 编辑任务对应的代码版本内容.